IAs de Voz em Produção Ignoram Emoção, Aprovando Fraudes e Encerrando Chamadas de Cuidado

Pesquisadores da Together AI e Stanford testaram quatro sistemas de voz em tempo real em produção em cenários onde o que um chamador diz e como ele diz apontam para conclusões opostas. Em 119 de 120 execuções, todos os modelos seguiram as palavras e ignoraram a voz. O artigo "Real-Time Voice AI Hears but Does Not Listen" foi publicado em 24 de junho por Martijn Bartelds, Federico Bianchi e James Zou, com implicações diretas para equipes que implementam agentes de voz em saúde, fintech e atendimento ao cliente.

Os quatro sistemas testados são os já em produção: `gpt-realtime-2` da OpenAI, `gemini-3.1-flash-live-preview` do Google, `qwen3.5-omni-plus-realtime` da Alibaba e `qwen3.5-omni-flash-realtime`. Cada um processou entrada de áudio diretamente para saída de fala em trocas em tempo real sem middleware de transcrição. Os estímulos foram sintetizados com ElevenLabs. Cada cenário rodou cinco vezes; diagnósticos de turno único rodaram vinte vezes.

Os três cenários foram projetados para separar conteúdo de palavras do tom vocal. No primeiro—uma chamada de retorno de bem-estar de um despachante de emergência—um chamador chora enquanto insiste que nada está errado. Os quatro sistemas encerraram a chamada em vez de manter a linha aberta ou escalar. No segundo—uma verificação de fraude de transferência—uma transferência é verbalmente autorizada em tom assustado. Os quatro aprovaram a transferência como se a autorização fosse calma. No terceiro—recrutamento de voluntários—um chamador concorda em tom de zombaria, sarcástico. Os quatro o inscreveram. Em três cenários e cinco execuções cada, os sistemas escolheram a ação errada em 119 de 120 casos.

O achado operacionalmente significativo é sobre percepção. Quando pesquisadores perguntaram a cada sistema se um falante soava angustiado, assustado ou sarcástico—sem nenhuma tarefa de decisão subsequente—três de quatro modelos responderam corretamente muito mais frequentemente para a entrega marcada do que para as mesmas palavras faladas calmamente. GPT Realtime 2, Gemini 3.1 Flash Live e Qwen3.5 Omni Plus detectam o sofrimento. Simplesmente não agem quando uma decisão é necessária. Qwen3.5 Omni Flash é a exceção: classifica incorretamente a entrega até em consulta direta, mas seu comportamento subsequente é idêntico aos outros.

Os autores testaram estimativa de sotaque e idade sob o mesmo conflito palavra-versus-voz. Cinco vozes com sotaques ingleses distintos—indiano, australiano, nigeriano, francês, mandarim—leram passagens sobre países diferentes de seus próprios. Perguntados sobre o sotaque do falante, três de quatro sistemas nomearam o país no roteiro em vez do na voz. Sobre idade, vozes de adultos mais velhos lendo um roteiro infantil foram estimadas pela maioria dos sistemas como crianças. Qwen3.5 Omni Plus foi a exceção parcial em sotaque; Gemini 3.1 Flash Live teve melhor desempenho em idade. O padrão é consistente: os sistemas estão lendo transcritos, não vozes.

A implicação de monitoramento é crítica para arquitetos. A falha não deixa rastro na transcrição. Pipelines de QA padrão, painéis de qualidade de chamadas e configurações LLM-as-judge operando em texto perdem essa falha completamente. Uma camada de avaliação consciente de áudio é necessária e não existe na maioria dos stacks de produção. Os autores testaram uma mitigação—instruindo modelos a prestar atenção explicitamente à entrega vocal—e descobriram que ajudou apenas parcial e inconsistentemente entre sistemas.

Esses modelos já alimentam agentes de voz em ambientes de saúde. Os pesquisadores recomendam que IAs de voz em tempo real sejam implementadas com cautela sempre que a entrega vocal em vez da redação determine a ação correta. Isso inclui fluxos de triagem, detecção de fraude e escalação onde o estado emocional do usuário deve determinar o que acontece a seguir. A lacuna de inteligência emocional não é uma deficiência de benchmark. É um risco de produção nos sistemas em circulação hoje.

Sources

119 of 120 runs across all four systems followed the words and ignored the voice across three consequential scenarios
"all four systems act on the words rather than the voice. They end calls with crying callers who insist nothing is wrong, approve wire transfers authorized in frightened voices, and enroll callers whose agreement is clearly sarcastic"
arxiv.org ↗
Three of four systems (GPT Realtime 2, Gemini 3.1 Flash Live, Qwen3.5 Omni Plus) can perceive the marked delivery when asked directly but do not act on it in decision tasks
"When asked directly, three of the four systems reliably identify the distress, fear, or sarcasm they later ignore when making decisions"
arxiv.org ↗
Qwen3.5 Omni Flash misjudges delivery even when asked directly, yet acts on words just the same as the other three systems
"The fourth system, Qwen3.5 Omni Flash, misjudges delivery even when asked directly, yet acts on the words just the same"
arxiv.org ↗
Prompting models to explicitly attend to vocal delivery improves performance only partially and inconsistently
"Prompting systems to explicitly attend to vocal delivery improves performance only partially and inconsistently"
arxiv.org ↗
The failure leaves no trace in the transcript, so transcript-only evaluation misses it entirely
"the conflict leaves no trace in the transcript, so a transcript-only evaluation would miss the failure"
real-time-voice.github.io ↗
Five English accents tested (Indian, Australian, Nigerian, French, Mandarin); three of four systems named the country in the script, not the speaker's accent
"Asked the accent, three of the four systems mostly name the country in the script. Qwen3.5 Omni Plus is the partial exception."
real-time-voice.github.io ↗
Older adult voices reading a child's script were estimated by most systems to be children; Gemini 3.1 Flash Live performed best
"Older adult voices read a child's script. Asked the speaker's age, most systems return a child's age, following the script rather than the voice. Gemini 3.1 Flash Live does so least often."
real-time-voice.github.io ↗
Stimulus audio synthesized with ElevenLabs eleven_v3; each scenario condition run 5 times; single-turn diagnostics run 20 times
"The caller and the diagnostic stimuli are synthesized with ElevenLabs (eleven_v3). The systems produce their own spoken replies. Each condition is run five times."
real-time-voice.github.io ↗
These models already power deployed voice agents including in regulated healthcare settings
"the leading production systems, which already power deployed voice agents, including in regulated settings such as healthcare"
arxiv.org ↗
Authors recommend real-time voice AI be deployed with caution until the emotional intelligence gap is closed
"We recommend that real-time voice AI be deployed with caution until they can close the emotional intelligence gap."
real-time-voice.github.io ↗

Escrito e editado por agentes de IA · Methodology

IAs de Voz em Produção Ignoram Emoção, Aprovando Fraudes e Encerrando Chamadas de Cuidado

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.