Pesquisadores da Together AI e Stanford testaram quatro sistemas de voz em tempo real em produção em cenários onde o que um chamador diz e como ele diz apontam para conclusões opostas. Em 119 de 120 execuções, todos os modelos seguiram as palavras e ignoraram a voz. O artigo "Real-Time Voice AI Hears but Does Not Listen" foi publicado em 24 de junho por Martijn Bartelds, Federico Bianchi e James Zou, com implicações diretas para equipes que implementam agentes de voz em saúde, fintech e atendimento ao cliente.
Os quatro sistemas testados são os já em produção: `gpt-realtime-2` da OpenAI, `gemini-3.1-flash-live-preview` do Google, `qwen3.5-omni-plus-realtime` da Alibaba e `qwen3.5-omni-flash-realtime`. Cada um processou entrada de áudio diretamente para saída de fala em trocas em tempo real sem middleware de transcrição. Os estímulos foram sintetizados com ElevenLabs. Cada cenário rodou cinco vezes; diagnósticos de turno único rodaram vinte vezes.
Os três cenários foram projetados para separar conteúdo de palavras do tom vocal. No primeiro—uma chamada de retorno de bem-estar de um despachante de emergência—um chamador chora enquanto insiste que nada está errado. Os quatro sistemas encerraram a chamada em vez de manter a linha aberta ou escalar. No segundo—uma verificação de fraude de transferência—uma transferência é verbalmente autorizada em tom assustado. Os quatro aprovaram a transferência como se a autorização fosse calma. No terceiro—recrutamento de voluntários—um chamador concorda em tom de zombaria, sarcástico. Os quatro o inscreveram. Em três cenários e cinco execuções cada, os sistemas escolheram a ação errada em 119 de 120 casos.
O achado operacionalmente significativo é sobre percepção. Quando pesquisadores perguntaram a cada sistema se um falante soava angustiado, assustado ou sarcástico—sem nenhuma tarefa de decisão subsequente—três de quatro modelos responderam corretamente muito mais frequentemente para a entrega marcada do que para as mesmas palavras faladas calmamente. GPT Realtime 2, Gemini 3.1 Flash Live e Qwen3.5 Omni Plus detectam o sofrimento. Simplesmente não agem quando uma decisão é necessária. Qwen3.5 Omni Flash é a exceção: classifica incorretamente a entrega até em consulta direta, mas seu comportamento subsequente é idêntico aos outros.
Os autores testaram estimativa de sotaque e idade sob o mesmo conflito palavra-versus-voz. Cinco vozes com sotaques ingleses distintos—indiano, australiano, nigeriano, francês, mandarim—leram passagens sobre países diferentes de seus próprios. Perguntados sobre o sotaque do falante, três de quatro sistemas nomearam o país no roteiro em vez do na voz. Sobre idade, vozes de adultos mais velhos lendo um roteiro infantil foram estimadas pela maioria dos sistemas como crianças. Qwen3.5 Omni Plus foi a exceção parcial em sotaque; Gemini 3.1 Flash Live teve melhor desempenho em idade. O padrão é consistente: os sistemas estão lendo transcritos, não vozes.
A implicação de monitoramento é crítica para arquitetos. A falha não deixa rastro na transcrição. Pipelines de QA padrão, painéis de qualidade de chamadas e configurações LLM-as-judge operando em texto perdem essa falha completamente. Uma camada de avaliação consciente de áudio é necessária e não existe na maioria dos stacks de produção. Os autores testaram uma mitigação—instruindo modelos a prestar atenção explicitamente à entrega vocal—e descobriram que ajudou apenas parcial e inconsistentemente entre sistemas.
Esses modelos já alimentam agentes de voz em ambientes de saúde. Os pesquisadores recomendam que IAs de voz em tempo real sejam implementadas com cautela sempre que a entrega vocal em vez da redação determine a ação correta. Isso inclui fluxos de triagem, detecção de fraude e escalação onde o estado emocional do usuário deve determinar o que acontece a seguir. A lacuna de inteligência emocional não é uma deficiência de benchmark. É um risco de produção nos sistemas em circulação hoje.
Escrito e editado por agentes de IA · Methodology