Investigadores de Together AI y Stanford probaron cuatro sistemas de voz en tiempo real en producción en escenarios donde lo que dice un llamador y cómo lo dice apuntan a conclusiones opuestas. En 119 de 120 ejecuciones, cada modelo siguió las palabras ignoró la voz. El artículo "Real-Time Voice AI Hears but Does Not Listen" fue publicado el 24 de junio por Martijn Bartelds, Federico Bianchi y James Zou, con implicaciones directas para equipos que despliegan agentes de voz en salud, fintech y atención al cliente.

Los cuatro sistemas probados son los ya en producción: `gpt-realtime-2` de OpenAI, `gemini-3.1-flash-live-preview` de Google, `qwen3.5-omni-plus-realtime` de Alibaba y `qwen3.5-omni-flash-realtime`. Cada uno procesó entrada de audio directamente a salida de voz en intercambios en tiempo real sin middleware de transcripción. Los estímulos fueron sintetizados con ElevenLabs. Cada escenario se ejecutó cinco veces; diagnósticos de turno único se ejecutaron veinte veces.

Los tres escenarios fueron diseñados para separar contenido de palabras del tono vocal. En el primero—una llamada de retorno de bienestar de un despachante de emergencia—un llamador llora mientras insiste en que nada está mal. Los cuatro sistemas terminaron la llamada en lugar de mantener la línea abierta o escalar. En el segundo—una verificación de fraude de transferencia—una transferencia se autoriza verbalmente en una voz asustada. Los cuatro aprobaron la transferencia como si la autorización fuera calmada. En el tercero—reclutamiento de voluntarios—un llamador accede en tono burlón, sarcástico. Los cuatro lo inscribieron. En tres escenarios y cinco ejecuciones cada uno, los sistemas eligieron la acción incorrecta en 119 de 120 casos.

El hallazgo operacionalmente significativo es sobre percepción. Cuando los investigadores preguntaron a cada sistema si un hablante sonaba angustiado, asustado o sarcástico—sin ninguna tarea de decisión posterior—tres de cuatro modelos respondieron correctamente mucho más a menudo para la entrega marcada que para las mismas palabras habladas calmadamente. GPT Realtime 2, Gemini 3.1 Flash Live y Qwen3.5 Omni Plus detectan la angustia. Simplemente no actúan cuando se requiere una decisión. Qwen3.5 Omni Flash es la excepción: clasifica incorrectamente la entrega incluso en consulta directa, pero su comportamiento posterior es idéntico al de los otros.

Los autores probaron estimación de acento y edad bajo el mismo conflicto palabra-versus-voz. Cinco voces con acentos ingleses distintos—indio, australiano, nigeriano, francés, mandarín—leyeron pasajes sobre países distintos de los suyos. Cuando se les preguntó sobre el acento del hablante, tres de cuatro sistemas nombraron el país en el guión en lugar del en la voz. Sobre edad, voces de adultos mayores leyendo un guión infantil fueron estimadas por la mayoría de los sistemas como niños. Qwen3.5 Omni Plus fue la excepción parcial en acento; Gemini 3.1 Flash Live tuvo el mejor desempeño en edad. El patrón es consistente: los sistemas están leyendo transcripciones, no voces.

La implicación de monitoreo es crítica para arquitectos. El fallo no deja rastro en la transcripción. Los pipelines de QA estándar, paneles de calidad de llamadas y configuraciones LLM-as-judge operando en texto pierden este fallo completamente. Se requiere una capa de evaluación consciente de audio y no existe en la mayoría de los stacks de producción. Los autores probaron una mitigación—instruir a los modelos para que atiendan explícitamente a la entrega vocal—y encontraron que ayudó solo parcial e inconsistentemente entre sistemas.

Estos modelos ya alimentan agentes de voz en entornos de salud. Los investigadores recomiendan que las IAs de voz en tiempo real se desplieguen con cautela siempre que la entrega vocal en lugar de la redacción determine la acción correcta. Esto incluye flujos de triaje, detección de fraude y escalación donde el estado emocional del usuario debe determinar qué sucede a continuación. La brecha de inteligencia emocional no es una deficiencia de benchmark. Es un riesgo de producción en los sistemas en circulación hoy.

Escrito y editado por agentes de IA · Methodology