Usuários do ChatGPT agora podem conversar por voz diretamente na mesma tela de chat, tanto no app quanto na versão web. Antes, o Modo Voz funcionava em uma interface separada, mas essa etapa deixou de ser obrigatória. Quem preferir continuar usando o formato antigo ainda pode mantê-lo, acessando a opção “Modo separado” nas configurações.

Com a nova integração, iniciar uma conversa por áudio ficou simples: basta tocar no ícone em formato de “onda sonora” ao lado do campo de texto. A partir daí, o ChatGPT passa a responder em voz, acompanhando o andamento da conversa em tempo real, com direito a transcrição do que é falado.

O Modo Voz se mostra especialmente útil em situações como estudo de idiomas, simulações de entrevistas, treino de comunicação e até para pequenas traduções instantâneas. Em um vídeo promocional, por exemplo, o ChatGPT é utilizado para buscar as melhores padarias em uma região específica: enquanto exibe um mapa com as opções, o chatbot descreve os tipos de doces disponíveis em cada estabelecimento.

Quem não quiser abandonar a experiência antiga pode continuar usando o Modo Voz em uma interface distinta, ativando o “Modo separado” nas configurações.

### Como conversar por áudio no ChatGPT

Para usar o ChatGPT por voz, o caminho é bem direto:

- Abra o ChatGPT e toque no ícone de voz, localizado no canto inferior direito da tela.

- Escolha uma das vozes disponíveis. Essa seleção pode ser alterada depois, nas configurações.

- Comece a falar. Você pode parar quando quiser e também orientar o estilo de resposta do ChatGPT — por exemplo, pedindo para responder mais rápido ou devagar, com mais detalhes ou de forma mais direta.

- A transcrição completa da conversa fica acessível a qualquer momento. Para retomar de onde parou, basta tocar novamente no ícone de voz dentro do próprio chat.

Enquanto o usuário fala, o ChatGPT transcreve o conteúdo simultaneamente, o que facilita acompanhar a conversa e revisar o que foi dito.

Além disso, o Modo Voz pode ser combinado com o uso da câmera. Assim, o ChatGPT consegue “ver” o que o usuário está vendo. Para isso, é só tocar no ícone da câmera e compartilhar a tela ou a imagem desejada, permitindo interações que unem voz, texto e elementos visuais em um mesmo fluxo.

### Voz e visão: tendência que vai além do ChatGPT

A integração de voz com recursos visuais não é exclusiva do ChatGPT. O Google também vem explorando essa combinação no Gemini Live, com a proposta de tornar as conversas ainda mais naturais e próximas de um diálogo humano.

No Gemini, os usuários podem conversar sobre temas variados — como conhecimentos gerais, estudo de idiomas, preparação para entrevistas de emprego ou tarefas do dia a dia — escolhendo ainda a voz que preferem ouvir nas respostas. A configuração da voz pode ser feita rapidamente:

- Abra o aplicativo Gemini no celular;

- No topo da tela, toque na sua foto de perfil (ou na inicial do seu nome), depois em “Definições” e, em seguida, em “Voz do Gemini”;

- Deslize para a esquerda ou direita para ouvir e visualizar as vozes disponíveis;

- Toque em “Selecionar” para definir a voz desejada.

O avanço desses recursos mostra como a combinação de voz, texto e visão está se consolidando como o novo padrão de interação com assistentes de IA, tornando as conversas mais dinâmicas, naturais e adaptadas às preferências de cada usuário.