ElevenLabs Scribe lidera el marco de referencia de voz intercambiada en código

ServiceNow ha presentado AU-Harness, un marco de referencia de código abierto para el reconocimiento automático de voz en código intercambiado (ASR), en respuesta a una consulta de clientes sobre la gestión de llamantes bilingües que cambian entre español e inglés en medio de una locución. El marco de referencia evalúa siete modelos de voz líderes, revelando que los sistemas principales pueden manejar el intercambio de código mientras que otros fallan en silencio. Por ejemplo, OpenAI Whisper Large V3 Turbo, al ejecutarse en modo de detección automática sin un parámetro de idioma explícito, predetermina a la traducción al inglés en lugar de la transcripción, lo que resulta en una tasa de error de palabras (WER) que varía entre 0.16 y 0.61 y una degradación de hasta 0.85 puntos en comparación con su base de datos monolingüe en inglés en audio alemán-inglés.

El conjunto de datos incluye escenarios de HR e ITSM, como restablecimientos de contraseñas y problemas de VPN, en español-inglés, francés-inglés, francés canadiense-inglés y alemán-inglés. ServiceNow sintetizó locuciones utilizando OpenAI GPT-5 para la generación de texto en código intercambiado y ElevenLabs Multilingual V2 para la renderización de audio, con lingüistas nativos que revisan cada registro antes de su inclusión. Los modelos evaluados incluyen AssemblyAI Universal 3-Pro, Deepgram Nova 3 Multilang, ElevenLabs Scribe V2, Google Gemini 3 Flash, Mistral Voxtral Small 24B-2507, Nvidia Parakeet TDT 0.6b V3 y OpenAI Whisper Large V3 Turbo solo en detección automática de idioma, reflejando pipelines de voz del mundo real donde el idioma del llamante es desconocido.

La precisión se evalúa a través de tres métricas: WER para la fidelidad de la transcripción; WER semántico por Gemma-4-31B utilizando la metodología de marco de referencia STT de Pipecat para probar si un error altera el significado; y tasa de error de respuesta (AER), donde un LLM lee la transcripción y responde a preguntas de comprensión por cada locución siguiendo el protocolo IISc/ARTPARK de Bhushan et al. Este enfoque escalonado identifica modelos que parecen adecuados en WER pero no capturan entidades críticas como números de caso, fechas y nombres necesarios para que los agentes de voz realicen tareas sin intervención humana.

ElevenLabs Scribe V2 y AssemblyAI Universal 3-Pro lideran en precisión de transcripción, empatados en español-inglés y separados por solo 0.02-0.13 puntos porcentuales en todos los demás pares de idiomas, con Scribe tomando una delgada delantera en cada uno. Google Gemini 3 Flash sigue de cerca en cada par, perdiendo la mayoría en francés canadiense-inglés, donde se queda 0.14 puntos detrás de Scribe y 0.12 detrás de AssemblyAI. Scribe V2 notablemente supera su propia base de datos L2 monolingüe, lo que indica una verdadera robustez en lugar de simplemente tolerancia a la entrada bilingüe.

Gemini 3 Flash supera consistentemente a AssemblyAI en AER y lo empuja al tercer lugar en todos los pares, preservando el significado actionable a pesar de las palabras perdidas. El mismo patrón aparece en el WER semántico, aunque AssemblyAI supera a Gemini en español-inglés. Deepgram Nova 3 se sitúa en la mitad de la tabla en WER semántico pero ocupa el último o el penúltimo lugar en AER en todos los pares; en español-inglés, su tasa de error semántico general es inferior a su tasa de error específicamente en los detalles que importan más.

El marco de referencia es sintético, utilizando audio TTS de ElevenLabs en lugar de hablantes bilingües reales, por lo que carece de compresión fonológica, acento y disfluencias conversacionales. Los errores se concentran en segmentos en inglés en lugar de las porciones de la matriz de idioma, posiblemente porque el vocabulario técnico incrustado crea un cambio de contexto fonológico que el TTS de estudio subrepresenta. Los autores del marco de referencia señalan que la frecuencia de conmutación predice si se produce un error de transcripción, una relación significativa para seis de los siete modelos en francés-inglés, mientras que el Índice de Mezcla de Código predice la gravedad del error, con cuatro de los siete modelos en alemán-inglés mostrando una relación positiva significativa entre CMI y WER.

El conjunto de datos es pequeño, con 259 registros de español-inglés, 298 de francés-inglés, 188 de francés canadiense-inglés y 173 de alemán-inglés, lo que introduce ruido de muestreo. Todos los modelos fueron probados en modo de detección automática, donde Whisper falla en silencio al traducir al inglés en lugar de transcribir el idioma de la matriz, un comportamiento parcialmente enmascarado por métricas semánticas porque la traducción preserva algo de significado. ServiceNow no evaluó configuraciones con tokens de idioma forzados.

Es esencial adoptar la línea de evaluación de tres niveles —WER, WER semántico y precisión de respuestas downstream— porque los rankings de transcripción en bruto cambian al probar si la transcripción contiene los hechos necesarios para la acción del agente.

Sources

ServiceNow built a 918-utterance code-switched ASR benchmark (AU-Harness) covering 4 language pairs after a customer inquiry about bilingual voice agent performance
"when a customer asked us how our voice agents would perform for their largely bilingual customer base who routinely code-switched, we decided to build our own benchmark"
huggingface.co ↗
Whisper Large V3 Turbo posts WER ranging from 0.16 to 0.61 on code-switched audio with auto language detection
"OpenAI/Whisper Large V3 Turbo sits at the bottom, with WER ranging from 0.16 to 0.61. While it's a significant drop, it reflects known limitation of Whisper. When called without an explicit language parameter on code-switched audio, Whisper defaults to translating into English rather than transcribing, failing to preserve the language spoken in the audio."
huggingface.co ↗
Whisper degrades by up to 0.85 WER versus English monolingual baseline on German-English code-switched audio
"The clearest outlier is Whisper, which shows the largest degradation relative to English, peaking at +0.85 on German-English."
huggingface.co ↗
ElevenLabs Scribe V2 and AssemblyAI Universal 3-Pro are the top two models on WER, separated by 0.02 to 0.13 percentage points across language pairs
"ElevenLabs/Scribe V2 and AssemblyAI/Universal-3 Pro are the top two models on transcription accuracy. They are tied on Spanish-English and separated by 0.02-0.13 percentage points across all other language pairs, with Scribe taking a narrow lead on each."
huggingface.co ↗
Scribe V2 outperforms its own monolingual L2 baseline on code-switched audio, indicating genuine robustness
"Scribe V2 notably outperforming its own L2 baseline, pointing to genuine robustness to bilingual input."
huggingface.co ↗
Gemini 3 Flash ranks third on WER but second on AER across all language pairs; on Canadian French-English it trails Scribe by 0.14 WER points and AssemblyAI by 0.12
"Google/Gemini 3 Flash follows closely in every language pair, trailing most on Canadian French-English, where it falls 0.14 points behind Scribe and 0.12 points behind AssemblyAI. ... While Assembly AI ranked first or second across language pairs in WER, Gemini 3 Flash consistently outperforms it in AER and pushes AssemblyAI down to third place."
huggingface.co ↗
Deepgram Nova 3 ranks mid-tier on SWER but last or second-to-last on AER across all language pairs, with the gap most pronounced on Spanish-English
"The one clear outlier is Deepgram Nova-3, which sits mid-tier on SWER but ranks last or second-to-last on AER across all language pairs. The gap is most pronounced on Spanish-English: Nova-3's overall rate of semantic errors is lower than its error rate specifically on the details that matter most."
huggingface.co ↗
Language switch count predicts whether a transcription error occurs; Code-Mixing Index predicts error magnitude once an error has occurred
"the number of language switches within an utterance is the predictor most consistently associated with whether the occurrence of a transcription error... CMI surfaces as the stronger predictor [of error magnitude]. In the German-English language pair specifically, four out of seven models showed a significant positive relationship between CMI and WER."
huggingface.co ↗
Errors cluster on the English (embedded) portions of code-switched utterances across all models and language pairs
"errors concentrate on the English portions of utterances rather than the matrix-language portions."
huggingface.co ↗
All models were evaluated with auto language detection only, matching production settings where caller language is unknown
"All models were evaluated with 'auto language detection' only... We chose auto-detection because it matches the production setting where the system has no prior knowledge of which language pair a caller will use."
huggingface.co ↗
The benchmark is fully synthetic — audio generated via ElevenLabs Multilingual V2 TTS rather than recorded by real bilingual speakers
"The benchmark is synthetic. All audio is generated via Text-to-Speech (TTS) model rather than recorded by natural bilingual speakers."
huggingface.co ↗
AU-Harness and the dataset are released open-source on GitHub and HuggingFace
"We release our benchmark and data through our harness for evaluating voice models, AU-Harness."
github.com ↗
Dataset breakdown: 259 Spanish-English records, 298 French-English, 188 Canadian French-English, 173 German-English (918 total)
"The final dataset has 259 Spanish-English records, 298 French-English records, 188 Canadian French-English records, and 173 German-English records."
huggingface.co ↗
ServiceNow used OpenAI GPT-5 for code-switched text generation and Gemma-4-31B as the semantic WER judge
"we ultimately selected a simple persona prompt sent to an LLM (OpenAI/GPT-5) to produce the code-switched text... Our implementation is largely based on Pipecat's STT benchmark, and we use Gemma-4-31B as our judge."
huggingface.co ↗
AER follows the methodology of Bhushan et al. (IISc/ARTPARK, arXiv 2507.16456), using comprehension questions to test downstream task performance
"It is a question-answer metric that follows the methodology in Bhushan et al. (IISc/ARTPARK, arXiv 2507.16456). For each utterance, we generate three downstream comprehension questions and measure whether an LLM reading the ASR transcript can answer them correctly."
huggingface.co ↗

Escrito y editado por agentes de IA · Methodology

ElevenLabs Scribe lidera el marco de referencia de voz intercambiada en código

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.