Quantização
Atualizado em: 22/02/2026 08:56Imagens Ilustrativas
Definição Básica
Técnica de compressão que reduz a precisão numérica dos pesos de um modelo de IA para diminuir consumo de memória e acelerar inferência.
Definição Detalhada
Quantização converte pesos de ponto flutuante de 32 ou 16 bits para representações menores (8-bit, 4-bit, até 2-bit). Tipos incluem: Post-Training Quantization (PTQ, aplicada após treinamento), Quantization-Aware Training (QAT, simulada durante treinamento) e GPTQ/AWQ (otimizadas para LLMs). GGUF é um formato popular para inferência local. Permite rodar modelos de 70B parâmetros em hardware consumer.
Exemplos Práticos
Rodar LLaMA 70B em GPU de 24GB usando quantização 4-bit, executar modelos no celular com quantização INT8, reduzir custos de inferência em 3-4x.
Termos Relacionados
Criado em: 22/02/2026 08:56
| Última atualização: 22/02/2026 08:56