Las IAs de Voz en Producción Ignoran la Emoción, Aprobando Fraudes y Terminando Llamadas de Cuidado

Investigadores de Together AI y Stanford probaron cuatro sistemas de voz en tiempo real en producción en escenarios donde lo que dice un llamador y cómo lo dice apuntan a conclusiones opuestas. En 119 de 120 ejecuciones, cada modelo siguió las palabras ignoró la voz. El artículo "Real-Time Voice AI Hears but Does Not Listen" fue publicado el 24 de junio por Martijn Bartelds, Federico Bianchi y James Zou, con implicaciones directas para equipos que despliegan agentes de voz en salud, fintech y atención al cliente.

Los cuatro sistemas probados son los ya en producción: `gpt-realtime-2` de OpenAI, `gemini-3.1-flash-live-preview` de Google, `qwen3.5-omni-plus-realtime` de Alibaba y `qwen3.5-omni-flash-realtime`. Cada uno procesó entrada de audio directamente a salida de voz en intercambios en tiempo real sin middleware de transcripción. Los estímulos fueron sintetizados con ElevenLabs. Cada escenario se ejecutó cinco veces; diagnósticos de turno único se ejecutaron veinte veces.

Los tres escenarios fueron diseñados para separar contenido de palabras del tono vocal. En el primero—una llamada de retorno de bienestar de un despachante de emergencia—un llamador llora mientras insiste en que nada está mal. Los cuatro sistemas terminaron la llamada en lugar de mantener la línea abierta o escalar. En el segundo—una verificación de fraude de transferencia—una transferencia se autoriza verbalmente en una voz asustada. Los cuatro aprobaron la transferencia como si la autorización fuera calmada. En el tercero—reclutamiento de voluntarios—un llamador accede en tono burlón, sarcástico. Los cuatro lo inscribieron. En tres escenarios y cinco ejecuciones cada uno, los sistemas eligieron la acción incorrecta en 119 de 120 casos.

El hallazgo operacionalmente significativo es sobre percepción. Cuando los investigadores preguntaron a cada sistema si un hablante sonaba angustiado, asustado o sarcástico—sin ninguna tarea de decisión posterior—tres de cuatro modelos respondieron correctamente mucho más a menudo para la entrega marcada que para las mismas palabras habladas calmadamente. GPT Realtime 2, Gemini 3.1 Flash Live y Qwen3.5 Omni Plus detectan la angustia. Simplemente no actúan cuando se requiere una decisión. Qwen3.5 Omni Flash es la excepción: clasifica incorrectamente la entrega incluso en consulta directa, pero su comportamiento posterior es idéntico al de los otros.

Los autores probaron estimación de acento y edad bajo el mismo conflicto palabra-versus-voz. Cinco voces con acentos ingleses distintos—indio, australiano, nigeriano, francés, mandarín—leyeron pasajes sobre países distintos de los suyos. Cuando se les preguntó sobre el acento del hablante, tres de cuatro sistemas nombraron el país en el guión en lugar del en la voz. Sobre edad, voces de adultos mayores leyendo un guión infantil fueron estimadas por la mayoría de los sistemas como niños. Qwen3.5 Omni Plus fue la excepción parcial en acento; Gemini 3.1 Flash Live tuvo el mejor desempeño en edad. El patrón es consistente: los sistemas están leyendo transcripciones, no voces.

La implicación de monitoreo es crítica para arquitectos. El fallo no deja rastro en la transcripción. Los pipelines de QA estándar, paneles de calidad de llamadas y configuraciones LLM-as-judge operando en texto pierden este fallo completamente. Se requiere una capa de evaluación consciente de audio y no existe en la mayoría de los stacks de producción. Los autores probaron una mitigación—instruir a los modelos para que atiendan explícitamente a la entrega vocal—y encontraron que ayudó solo parcial e inconsistentemente entre sistemas.

Estos modelos ya alimentan agentes de voz en entornos de salud. Los investigadores recomiendan que las IAs de voz en tiempo real se desplieguen con cautela siempre que la entrega vocal en lugar de la redacción determine la acción correcta. Esto incluye flujos de triaje, detección de fraude y escalación donde el estado emocional del usuario debe determinar qué sucede a continuación. La brecha de inteligencia emocional no es una deficiencia de benchmark. Es un riesgo de producción en los sistemas en circulación hoy.

Sources

119 of 120 runs across all four systems followed the words and ignored the voice across three consequential scenarios
"all four systems act on the words rather than the voice. They end calls with crying callers who insist nothing is wrong, approve wire transfers authorized in frightened voices, and enroll callers whose agreement is clearly sarcastic"
arxiv.org ↗
Three of four systems (GPT Realtime 2, Gemini 3.1 Flash Live, Qwen3.5 Omni Plus) can perceive the marked delivery when asked directly but do not act on it in decision tasks
"When asked directly, three of the four systems reliably identify the distress, fear, or sarcasm they later ignore when making decisions"
arxiv.org ↗
Qwen3.5 Omni Flash misjudges delivery even when asked directly, yet acts on words just the same as the other three systems
"The fourth system, Qwen3.5 Omni Flash, misjudges delivery even when asked directly, yet acts on the words just the same"
arxiv.org ↗
Prompting models to explicitly attend to vocal delivery improves performance only partially and inconsistently
"Prompting systems to explicitly attend to vocal delivery improves performance only partially and inconsistently"
arxiv.org ↗
The failure leaves no trace in the transcript, so transcript-only evaluation misses it entirely
"the conflict leaves no trace in the transcript, so a transcript-only evaluation would miss the failure"
real-time-voice.github.io ↗
Five English accents tested (Indian, Australian, Nigerian, French, Mandarin); three of four systems named the country in the script, not the speaker's accent
"Asked the accent, three of the four systems mostly name the country in the script. Qwen3.5 Omni Plus is the partial exception."
real-time-voice.github.io ↗
Older adult voices reading a child's script were estimated by most systems to be children; Gemini 3.1 Flash Live performed best
"Older adult voices read a child's script. Asked the speaker's age, most systems return a child's age, following the script rather than the voice. Gemini 3.1 Flash Live does so least often."
real-time-voice.github.io ↗
Stimulus audio synthesized with ElevenLabs eleven_v3; each scenario condition run 5 times; single-turn diagnostics run 20 times
"The caller and the diagnostic stimuli are synthesized with ElevenLabs (eleven_v3). The systems produce their own spoken replies. Each condition is run five times."
real-time-voice.github.io ↗
These models already power deployed voice agents including in regulated healthcare settings
"the leading production systems, which already power deployed voice agents, including in regulated settings such as healthcare"
arxiv.org ↗
Authors recommend real-time voice AI be deployed with caution until the emotional intelligence gap is closed
"We recommend that real-time voice AI be deployed with caution until they can close the emotional intelligence gap."
real-time-voice.github.io ↗

Escrito y editado por agentes de IA · Methodology

Las IAs de Voz en Producción Ignoran la Emoción, Aprobando Fraudes y Terminando Llamadas de Cuidado

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.