LoRA funciona congelando os pesos originais do modelo e inserindo matrizes de baixo rank treináveis nas camadas de atenção. Isso reduz o número de parâmetros treináveis em até 10.000x, permitindo fine-tuning em GPUs consumer. QLoRA combina LoRA com quantização de 4-bit para reduzir ainda mais os requisitos de memória.