O mecanismo de atenção calcula pesos de importância para cada elemento da entrada usando queries, keys e values. Self-attention permite que cada posição de uma sequência atenda a todas as outras posições. Multi-head attention executa múltiplas operações de atenção em paralelo, capturando diferentes tipos de relações. Flash Attention é uma otimização que reduz o uso de memória e acelera o cálculo.