Introduzida no artigo 'Attention Is All You Need' (2017) pela Google, a arquitetura Transformer substituiu as RNNs ao processar sequências inteiras em paralelo usando mecanismos de self-attention. Composta por encoder e decoder com camadas de atenção multi-cabeça, permite capturar dependências de longo alcance em dados sequenciais. É a base de praticamente todos os modelos modernos de IA, incluindo BERT, GPT, T5, ViT e modelos de difusão.