A OpenAI está direcionando investimentos e equipes para avançar em inteligência artificial de áudio — e a ambição vai além de dar mais naturalidade à voz do ChatGPT. Relatos recentes apontam que, nos últimos dois meses, a empresa reuniu equipes de engenharia, produto e pesquisa para redesenhar seus modelos de áudio. O movimento tem como meta preparar o lançamento de um dispositivo pessoal centrado em áudio, previsto para ocorrer daqui a aproximadamente um ano.

Essa aposta acompanha uma tendência maior no setor: a gradual perda de protagonismo das telas em favor de interfaces baseadas em som. Assistentes de voz já estão presentes em mais de um terço dos lares americanos, impulsionados pela popularidade das caixas de som inteligentes, e grandes empresas vêm testando diferentes abordagens para transformar o áudio em interface principal.

Alguns exemplos recentes mostram essa direção:

PUBLICIDADE

- A Meta integrou um sistema de escuta direcional em seus óculos Ray‑Ban, usando um conjunto de cinco microfones para melhorar a audição em ambientes barulhentos.

- O Google vem experimentando desde junho uma função chamada "Audio Overviews", que converte resultados de busca em resumos conversacionais.

- A Tesla planeja incorporar o chatbot Grok da xAI em seus veículos, criando um assistente de voz capaz de gerenciar diálogo natural para navegação, controle climático e outras funções do carro.

Não são apenas as gigantes: startups também apostam em formatos alternativos de hardware de áudio, com graus variados de sucesso. O vestível Humane AI Pin recebeu centenas de milhões em investimentos antes de se tornar um alerta sobre os desafios do setor. O colar Friend AI, que promete registrar a vida do usuário e oferecer companhia, suscitou preocupações sobre privacidade e impactos psicológicos. E há empresas como a Sandbar e outra liderada por Eric Migicovsky (fundador da Pebble) desenvolvendo anéis com IA previstos para 2026, que permitirão interação com assistentes diretamente pela mão.

A tese unificadora é simples: o áudio se coloca como a interface do futuro, transformando espaços — da casa ao carro, do vestuário ao rosto — em superfícies de controle interativas.

Quanto às inovações da OpenAI, o novo modelo de áudio, esperado para o início de 2026, promete som mais natural, habilidade para lidar com interrupções em diálogos reais e até a capacidade de falar ao mesmo tempo que o usuário, algo que os modelos atuais ainda não dominam. A empresa também considera desenvolver uma família de dispositivos — possivelmente incluindo óculos ou caixas de som inteligentes sem tela — pensados mais como companheiros do que como ferramentas pontuais.

No time de hardware da OpenAI há também nomes de peso: após a aquisição da empresa io por US$ 6,5 bilhões em maio, Jony Ive, ex‑chefe de design da Apple, passou a colaborar com os esforços de hardware. Uma de suas prioridades é reduzir o vício em dispositivos, vendo o design centrado no áudio como uma oportunidade para corrigir erros do passado no consumo de gadgets.