Quantização converte pesos de ponto flutuante de 32 ou 16 bits para representações menores (8-bit, 4-bit, até 2-bit). Tipos incluem: Post-Training Quantization (PTQ, aplicada após treinamento), Quantization-Aware Training (QAT, simulada durante treinamento) e GPTQ/AWQ (otimizadas para LLMs). GGUF é um formato popular para inferência local. Permite rodar modelos de 70B parâmetros em hardware consumer.