Quantização

Definição Básica

Técnica de compressão que reduz a precisão numérica dos pesos de um modelo de IA para diminuir consumo de memória e acelerar inferência.

Definição Detalhada

Quantização converte pesos de ponto flutuante de 32 ou 16 bits para representações menores (8-bit, 4-bit, até 2-bit). Tipos incluem: Post-Training Quantization (PTQ, aplicada após treinamento), Quantization-Aware Training (QAT, simulada durante treinamento) e GPTQ/AWQ (otimizadas para LLMs). GGUF é um formato popular para inferência local. Permite rodar modelos de 70B parâmetros em hardware consumer.

Exemplos Práticos

Rodar LLaMA 70B em GPU de 24GB usando quantização 4-bit, executar modelos no celular com quantização INT8, reduzir custos de inferência em 3-4x.

Termos Relacionados

Large Language Model (LLM) LoRA (Low-Rank Adaptation) Fine-Tuning

Imagens Ilustrativas

Definição Básica

Definição Detalhada

Exemplos Práticos

Termos Relacionados