LLMs são redes neurais com bilhões de parâmetros, treinadas em vastos corpora textuais usando técnicas de aprendizado auto-supervisionado. Baseados na arquitetura Transformer, esses modelos capturam padrões estatísticos complexos da linguagem, permitindo geração de texto, tradução, resumo, código e raciocínio. Exemplos incluem GPT-4, Claude, Gemini, LLaMA e Mistral. O processo de treinamento envolve pré-treinamento em dados gerais seguido de fine-tuning e alinhamento com preferências humanas (RLHF).