Tokenização é o processo de dividir texto em tokens que o modelo consegue processar. Algoritmos como BPE (Byte Pair Encoding), WordPiece e SentencePiece dividem palavras em subpalavras frequentes. Em português, uma palavra como 'inteligência' pode ser dividida em 2-3 tokens. O tamanho da janela de contexto (context window) determina quantos tokens o modelo processa simultaneamente — GPT-4 suporta até 128K tokens, Claude até 200K.