Usuários do ChatGPT agora podem conversar por voz diretamente na mesma tela de chat, tanto no app quanto na versão web. Antes, o Modo Voz funcionava em uma interface separada, mas essa etapa deixou de ser obrigatória. Quem preferir continuar usando o formato antigo ainda pode mantê-lo, acessando a opção “Modo separado” nas configurações.
Com a nova integração, iniciar uma conversa por áudio ficou simples: basta tocar no ícone em formato de “onda sonora” ao lado do campo de texto. A partir daí, o ChatGPT passa a responder em voz, acompanhando o andamento da conversa em tempo real, com direito a transcrição do que é falado.
O Modo Voz se mostra especialmente útil em situações como estudo de idiomas, simulações de entrevistas, treino de comunicação e até para pequenas traduções instantâneas. Em um vídeo promocional, por exemplo, o ChatGPT é utilizado para buscar as melhores padarias em uma região específica: enquanto exibe um mapa com as opções, o chatbot descreve os tipos de doces disponíveis em cada estabelecimento.
Quem não quiser abandonar a experiência antiga pode continuar usando o Modo Voz em uma interface distinta, ativando o “Modo separado” nas configurações.
### Como conversar por áudio no ChatGPT
Para usar o ChatGPT por voz, o caminho é bem direto:
- Abra o ChatGPT e toque no ícone de voz, localizado no canto inferior direito da tela.
- Escolha uma das vozes disponíveis. Essa seleção pode ser alterada depois, nas configurações.
- Comece a falar. Você pode parar quando quiser e também orientar o estilo de resposta do ChatGPT — por exemplo, pedindo para responder mais rápido ou devagar, com mais detalhes ou de forma mais direta.
- A transcrição completa da conversa fica acessível a qualquer momento. Para retomar de onde parou, basta tocar novamente no ícone de voz dentro do próprio chat.
Enquanto o usuário fala, o ChatGPT transcreve o conteúdo simultaneamente, o que facilita acompanhar a conversa e revisar o que foi dito.
Além disso, o Modo Voz pode ser combinado com o uso da câmera. Assim, o ChatGPT consegue “ver” o que o usuário está vendo. Para isso, é só tocar no ícone da câmera e compartilhar a tela ou a imagem desejada, permitindo interações que unem voz, texto e elementos visuais em um mesmo fluxo.
### Voz e visão: tendência que vai além do ChatGPT
A integração de voz com recursos visuais não é exclusiva do ChatGPT. O Google também vem explorando essa combinação no Gemini Live, com a proposta de tornar as conversas ainda mais naturais e próximas de um diálogo humano.
No Gemini, os usuários podem conversar sobre temas variados — como conhecimentos gerais, estudo de idiomas, preparação para entrevistas de emprego ou tarefas do dia a dia — escolhendo ainda a voz que preferem ouvir nas respostas. A configuração da voz pode ser feita rapidamente:
- Abra o aplicativo Gemini no celular;
- No topo da tela, toque na sua foto de perfil (ou na inicial do seu nome), depois em “Definições” e, em seguida, em “Voz do Gemini”;
- Deslize para a esquerda ou direita para ouvir e visualizar as vozes disponíveis;
- Toque em “Selecionar” para definir a voz desejada.
O avanço desses recursos mostra como a combinação de voz, texto e visão está se consolidando como o novo padrão de interação com assistentes de IA, tornando as conversas mais dinâmicas, naturais e adaptadas às preferências de cada usuário.