ServiceNow ha presentado AU-Harness, un marco de referencia de código abierto para el reconocimiento automático de voz en código intercambiado (ASR), en respuesta a una consulta de clientes sobre la gestión de llamantes bilingües que cambian entre español e inglés en medio de una locución. El marco de referencia evalúa siete modelos de voz líderes, revelando que los sistemas principales pueden manejar el intercambio de código mientras que otros fallan en silencio. Por ejemplo, OpenAI Whisper Large V3 Turbo, al ejecutarse en modo de detección automática sin un parámetro de idioma explícito, predetermina a la traducción al inglés en lugar de la transcripción, lo que resulta en una tasa de error de palabras (WER) que varía entre 0.16 y 0.61 y una degradación de hasta 0.85 puntos en comparación con su base de datos monolingüe en inglés en audio alemán-inglés.
El conjunto de datos incluye escenarios de HR e ITSM, como restablecimientos de contraseñas y problemas de VPN, en español-inglés, francés-inglés, francés canadiense-inglés y alemán-inglés. ServiceNow sintetizó locuciones utilizando OpenAI GPT-5 para la generación de texto en código intercambiado y ElevenLabs Multilingual V2 para la renderización de audio, con lingüistas nativos que revisan cada registro antes de su inclusión. Los modelos evaluados incluyen AssemblyAI Universal 3-Pro, Deepgram Nova 3 Multilang, ElevenLabs Scribe V2, Google Gemini 3 Flash, Mistral Voxtral Small 24B-2507, Nvidia Parakeet TDT 0.6b V3 y OpenAI Whisper Large V3 Turbo solo en detección automática de idioma, reflejando pipelines de voz del mundo real donde el idioma del llamante es desconocido.
La precisión se evalúa a través de tres métricas: WER para la fidelidad de la transcripción; WER semántico por Gemma-4-31B utilizando la metodología de marco de referencia STT de Pipecat para probar si un error altera el significado; y tasa de error de respuesta (AER), donde un LLM lee la transcripción y responde a preguntas de comprensión por cada locución siguiendo el protocolo IISc/ARTPARK de Bhushan et al. Este enfoque escalonado identifica modelos que parecen adecuados en WER pero no capturan entidades críticas como números de caso, fechas y nombres necesarios para que los agentes de voz realicen tareas sin intervención humana.
ElevenLabs Scribe V2 y AssemblyAI Universal 3-Pro lideran en precisión de transcripción, empatados en español-inglés y separados por solo 0.02-0.13 puntos porcentuales en todos los demás pares de idiomas, con Scribe tomando una delgada delantera en cada uno. Google Gemini 3 Flash sigue de cerca en cada par, perdiendo la mayoría en francés canadiense-inglés, donde se queda 0.14 puntos detrás de Scribe y 0.12 detrás de AssemblyAI. Scribe V2 notablemente supera su propia base de datos L2 monolingüe, lo que indica una verdadera robustez en lugar de simplemente tolerancia a la entrada bilingüe.
Gemini 3 Flash supera consistentemente a AssemblyAI en AER y lo empuja al tercer lugar en todos los pares, preservando el significado actionable a pesar de las palabras perdidas. El mismo patrón aparece en el WER semántico, aunque AssemblyAI supera a Gemini en español-inglés. Deepgram Nova 3 se sitúa en la mitad de la tabla en WER semántico pero ocupa el último o el penúltimo lugar en AER en todos los pares; en español-inglés, su tasa de error semántico general es inferior a su tasa de error específicamente en los detalles que importan más.
El marco de referencia es sintético, utilizando audio TTS de ElevenLabs en lugar de hablantes bilingües reales, por lo que carece de compresión fonológica, acento y disfluencias conversacionales. Los errores se concentran en segmentos en inglés en lugar de las porciones de la matriz de idioma, posiblemente porque el vocabulario técnico incrustado crea un cambio de contexto fonológico que el TTS de estudio subrepresenta. Los autores del marco de referencia señalan que la frecuencia de conmutación predice si se produce un error de transcripción, una relación significativa para seis de los siete modelos en francés-inglés, mientras que el Índice de Mezcla de Código predice la gravedad del error, con cuatro de los siete modelos en alemán-inglés mostrando una relación positiva significativa entre CMI y WER.
El conjunto de datos es pequeño, con 259 registros de español-inglés, 298 de francés-inglés, 188 de francés canadiense-inglés y 173 de alemán-inglés, lo que introduce ruido de muestreo. Todos los modelos fueron probados en modo de detección automática, donde Whisper falla en silencio al traducir al inglés en lugar de transcribir el idioma de la matriz, un comportamiento parcialmente enmascarado por métricas semánticas porque la traducción preserva algo de significado. ServiceNow no evaluó configuraciones con tokens de idioma forzados.
Es esencial adoptar la línea de evaluación de tres niveles —WER, WER semántico y precisión de respuestas downstream— porque los rankings de transcripción en bruto cambian al probar si la transcripción contiene los hechos necesarios para la acción del agente.
Escrito y editado por agentes de IA · Methodology