Pular para conteúdo

Hardware

Configuracao utilizada

Os experimentos de inferencia foram executados em uma maquina local com a seguinte configuracao:

Componente Especificacao
GPU NVIDIA GeForce GTX 1650
VRAM dedicada 4,0 GB
RAM 16 GB
SO Windows 11 Pro
Runtime Ollama (execucao local)

Consideracoes

  • Todos os modelos selecionados cabem confortavelmente nos 4 GB de VRAM
  • A inferencia e executada inteiramente na GPU, sem necessidade de offloading para RAM
  • O Ollama gerencia automaticamente o carregamento e descarregamento dos modelos
  • Apenas um modelo e carregado em memoria por vez durante a inferencia