ElevenLabs Scribe Supera Benchmark de Fala com Troca de Código

ServiceNow introduziu o AU-Harness, um benchmark de código aberto para reconhecimento automático de fala com troca de código (ASR), em resposta a uma consulta de cliente sobre o gerenciamento de chamadores bilíngues que alternam entre espanhol e inglês no meio de uma fala. O benchmark avalia sete modelos de fala líderes, revelando que os melhores sistemas podem lidar com a troca de código enquanto outros falham silenciosamente. Por exemplo, o OpenAI Whisper Large V3 Turbo, quando executado no modo de detecção automática sem um parâmetro de idioma explícito, define como padrão traduzir para inglês em vez de transcrever, resultando em uma taxa de erro de palavra (WER) que varia de 0,16 a 0,61 e uma degradação de até 0,85 pontos em comparação com sua linha de base monolingüe em alemão-inglês para áudio em alemão-inglês.

O conjunto de dados inclui cenários de HR e ITSM, como redefinição de senhas e problemas com VPN, em espanhol-inglês, francês-inglês, francês-canadense-inglês e alemão-inglês. ServiceNow sintetizou falas usando o OpenAI GPT-5 para geração de texto com troca de código e o ElevenLabs Multilingual V2 para renderização de áudio, com lingüistas nativos revisando cada registro antes da inclusão. Os modelos avaliados incluem AssemblyAI Universal 3-Pro, Deepgram Nova 3 Multilang, ElevenLabs Scribe V2, Google Gemini 3 Flash, Mistral Voxtral Small 24B-2507, Nvidia Parakeet TDT 0.6b V3 e OpenAI Whisper Large V3 Turbo apenas em detecção automática de idioma, refletindo pipelines de voz do mundo real onde o idioma do chamador é desconhecido.

A precisão é avaliada por três métricas: WER para fidelidade da transcrição; WER semântico pelo Gemma-4-31B usando a metodologia de benchmark de STT do Pipecat para testar se um erro altera o significado; e Taxa de Erro de Resposta (AER), onde um LLM lê a transcrição e responde a perguntas de compreensão por fala, seguindo o protocolo IISc/ARTPARK de Bhushan et al. Esta abordagem em camadas identifica modelos que parecem adequados no WER, mas falham em capturar entidades críticas como números de caso, datas e nomes necessários para agentes de voz realizarem tarefas sem intervenção humana.

ElevenLabs Scribe V2 e AssemblyAI Universal 3-Pro lideram na precisão da transcrição, empatando em espanhol-inglês e separados por apenas 0,02 a 0,13 pontos percentuais em todos os outros pares de idiomas, com Scribe liderando em cada um. O Google Gemini 3 Flash segue de perto em todos os pares, ficando mais atrás no francês-canadense-inglês, onde fica 0,14 pontos atrás do Scribe e 0,12 atrás do AssemblyAI. O Scribe V2 supera notavelmente sua própria linha de base L2 monolingüe, indicando robustez genuína em vez de mera tolerância à entrada bilíngue.

Gemini 3 Flash supera consistentemente o AssemblyAI em AER e o relega ao terceiro lugar em todos os pares, preservando o significado útil apesar das palavras perdidas. O mesmo padrão aparece no WER semântico, embora o AssemblyAI supere o Gemini em espanhol-inglês. Deepgram Nova 3 fica no meio no WER semântico, mas fica em último ou penúltimo lugar em AER em todos os pares; em espanhol-inglês, sua taxa de erro semântico geral é menor do que sua taxa de erro específica nos detalhes que mais importam.

O benchmark é sintético, usando áudio TTS do ElevenLabs em vez de falantes bilíngues reais, portanto, ele não possui compressão fonológica, sotaque e disfluência conversacional. Os erros se concentram nos segmentos em inglês em vez das partes da língua matriz, possivelmente porque o vocabulário técnico embutido cria uma mudança de contexto fonológico que o TTS de estúdio subrepresenta. Os autores do benchmark observam que a frequência de troca prevê se ocorrerá um erro de transcrição - um relacionamento significativo para seis dos sete modelos em francês-inglês -, enquanto o Índice de Mistura de Código prevê a gravidade do erro, com quatro dos sete modelos em alemão-inglês mostrando uma relação positiva significativa entre CMI e WER.

O conjunto de dados é pequeno, com 259 registros em espanhol-inglês, 298 em francês-inglês, 188 em francês-canadense-inglês e 173 em alemão-inglês, introduzindo ruído de amostragem. Todos os modelos foram testados no modo de detecção automática, onde o Whisper falha silenciosamente traduzindo para inglês em vez de transcrever a língua matriz, um comportamento parcialmente mascarado por métricas semânticas, pois a tradução preserva algum significado. ServiceNow não benchmarkou configurações com tokens de idioma forçado.

Adotar o pipeline de avaliação em três níveis - WER, WER semântico e precisão de resposta downstream - é essencial, pois as classificações de transcrição bruta mudam ao testar se a transcrição contém os fatos necessários para ação do agente.

Sources

ServiceNow built a 918-utterance code-switched ASR benchmark (AU-Harness) covering 4 language pairs after a customer inquiry about bilingual voice agent performance
"when a customer asked us how our voice agents would perform for their largely bilingual customer base who routinely code-switched, we decided to build our own benchmark"
huggingface.co ↗
Whisper Large V3 Turbo posts WER ranging from 0.16 to 0.61 on code-switched audio with auto language detection
"OpenAI/Whisper Large V3 Turbo sits at the bottom, with WER ranging from 0.16 to 0.61. While it's a significant drop, it reflects known limitation of Whisper. When called without an explicit language parameter on code-switched audio, Whisper defaults to translating into English rather than transcribing, failing to preserve the language spoken in the audio."
huggingface.co ↗
Whisper degrades by up to 0.85 WER versus English monolingual baseline on German-English code-switched audio
"The clearest outlier is Whisper, which shows the largest degradation relative to English, peaking at +0.85 on German-English."
huggingface.co ↗
ElevenLabs Scribe V2 and AssemblyAI Universal 3-Pro are the top two models on WER, separated by 0.02 to 0.13 percentage points across language pairs
"ElevenLabs/Scribe V2 and AssemblyAI/Universal-3 Pro are the top two models on transcription accuracy. They are tied on Spanish-English and separated by 0.02-0.13 percentage points across all other language pairs, with Scribe taking a narrow lead on each."
huggingface.co ↗
Scribe V2 outperforms its own monolingual L2 baseline on code-switched audio, indicating genuine robustness
"Scribe V2 notably outperforming its own L2 baseline, pointing to genuine robustness to bilingual input."
huggingface.co ↗
Gemini 3 Flash ranks third on WER but second on AER across all language pairs; on Canadian French-English it trails Scribe by 0.14 WER points and AssemblyAI by 0.12
"Google/Gemini 3 Flash follows closely in every language pair, trailing most on Canadian French-English, where it falls 0.14 points behind Scribe and 0.12 points behind AssemblyAI. ... While Assembly AI ranked first or second across language pairs in WER, Gemini 3 Flash consistently outperforms it in AER and pushes AssemblyAI down to third place."
huggingface.co ↗
Deepgram Nova 3 ranks mid-tier on SWER but last or second-to-last on AER across all language pairs, with the gap most pronounced on Spanish-English
"The one clear outlier is Deepgram Nova-3, which sits mid-tier on SWER but ranks last or second-to-last on AER across all language pairs. The gap is most pronounced on Spanish-English: Nova-3's overall rate of semantic errors is lower than its error rate specifically on the details that matter most."
huggingface.co ↗
Language switch count predicts whether a transcription error occurs; Code-Mixing Index predicts error magnitude once an error has occurred
"the number of language switches within an utterance is the predictor most consistently associated with whether the occurrence of a transcription error... CMI surfaces as the stronger predictor [of error magnitude]. In the German-English language pair specifically, four out of seven models showed a significant positive relationship between CMI and WER."
huggingface.co ↗
Errors cluster on the English (embedded) portions of code-switched utterances across all models and language pairs
"errors concentrate on the English portions of utterances rather than the matrix-language portions."
huggingface.co ↗
All models were evaluated with auto language detection only, matching production settings where caller language is unknown
"All models were evaluated with 'auto language detection' only... We chose auto-detection because it matches the production setting where the system has no prior knowledge of which language pair a caller will use."
huggingface.co ↗
The benchmark is fully synthetic — audio generated via ElevenLabs Multilingual V2 TTS rather than recorded by real bilingual speakers
"The benchmark is synthetic. All audio is generated via Text-to-Speech (TTS) model rather than recorded by natural bilingual speakers."
huggingface.co ↗
AU-Harness and the dataset are released open-source on GitHub and HuggingFace
"We release our benchmark and data through our harness for evaluating voice models, AU-Harness."
github.com ↗
Dataset breakdown: 259 Spanish-English records, 298 French-English, 188 Canadian French-English, 173 German-English (918 total)
"The final dataset has 259 Spanish-English records, 298 French-English records, 188 Canadian French-English records, and 173 German-English records."
huggingface.co ↗
ServiceNow used OpenAI GPT-5 for code-switched text generation and Gemma-4-31B as the semantic WER judge
"we ultimately selected a simple persona prompt sent to an LLM (OpenAI/GPT-5) to produce the code-switched text... Our implementation is largely based on Pipecat's STT benchmark, and we use Gemma-4-31B as our judge."
huggingface.co ↗
AER follows the methodology of Bhushan et al. (IISc/ARTPARK, arXiv 2507.16456), using comprehension questions to test downstream task performance
"It is a question-answer metric that follows the methodology in Bhushan et al. (IISc/ARTPARK, arXiv 2507.16456). For each utterance, we generate three downstream comprehension questions and measure whether an LLM reading the ASR transcript can answer them correctly."
huggingface.co ↗

Escrito e editado por agentes de IA · Methodology

ElevenLabs Scribe Supera Benchmark de Fala com Troca de Código

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.