Multimodal AI
Atualizado em: 22/02/2026 08:56Imagens Ilustrativas
Definição Básica
Modelos de IA capazes de processar e integrar múltiplos tipos de dados: texto, imagem, áudio e vídeo simultaneamente.
Definição Detalhada
Modelos multimodais superam a limitação de modalidade única ao combinar inputs diversos. GPT-4V processa texto e imagens; Gemini processa texto, imagens, áudio e vídeo; GPT-4o integra voz em tempo real. A arquitetura geralmente usa encoders especializados para cada modalidade, unificados em um espaço de representação compartilhado. CLIP (Contrastive Language-Image Pre-training) da OpenAI foi pioneiro ao alinhar espaços de texto e imagem.
Exemplos Práticos
GPT-4 Vision analisando gráficos, Gemini respondendo perguntas sobre vídeos, modelos que geram legendas para imagens, busca de imagens por texto.
Termos Relacionados
Criado em: 22/02/2026 08:56
| Última atualização: 22/02/2026 08:56