Modelos multimodais superam a limitação de modalidade única ao combinar inputs diversos. GPT-4V processa texto e imagens; Gemini processa texto, imagens, áudio e vídeo; GPT-4o integra voz em tempo real. A arquitetura geralmente usa encoders especializados para cada modalidade, unificados em um espaço de representação compartilhado. CLIP (Contrastive Language-Image Pre-training) da OpenAI foi pioneiro ao alinhar espaços de texto e imagem.