Token

Definição Básica

Unidade básica de texto processada por modelos de linguagem — pode ser uma palavra, parte de palavra ou caractere.

Definição Detalhada

Tokenização é o processo de dividir texto em tokens que o modelo consegue processar. Algoritmos como BPE (Byte Pair Encoding), WordPiece e SentencePiece dividem palavras em subpalavras frequentes. Em português, uma palavra como 'inteligência' pode ser dividida em 2-3 tokens. O tamanho da janela de contexto (context window) determina quantos tokens o modelo processa simultaneamente — GPT-4 suporta até 128K tokens, Claude até 200K.

Exemplos Práticos

GPT-4 cobra por token processado (~750 palavras por 1000 tokens em inglês). A janela de contexto limita quanto texto pode ser analisado de uma vez.

Termos Relacionados

Large Language Model (LLM) Transformer

Imagens Ilustrativas

Definição Básica

Definição Detalhada

Exemplos Práticos

Termos Relacionados