ServiceNow introduziu o AU-Harness, um benchmark de código aberto para reconhecimento automático de fala com troca de código (ASR), em resposta a uma consulta de cliente sobre o gerenciamento de chamadores bilíngues que alternam entre espanhol e inglês no meio de uma fala. O benchmark avalia sete modelos de fala líderes, revelando que os melhores sistemas podem lidar com a troca de código enquanto outros falham silenciosamente. Por exemplo, o OpenAI Whisper Large V3 Turbo, quando executado no modo de detecção automática sem um parâmetro de idioma explícito, define como padrão traduzir para inglês em vez de transcrever, resultando em uma taxa de erro de palavra (WER) que varia de 0,16 a 0,61 e uma degradação de até 0,85 pontos em comparação com sua linha de base monolingüe em alemão-inglês para áudio em alemão-inglês.

O conjunto de dados inclui cenários de HR e ITSM, como redefinição de senhas e problemas com VPN, em espanhol-inglês, francês-inglês, francês-canadense-inglês e alemão-inglês. ServiceNow sintetizou falas usando o OpenAI GPT-5 para geração de texto com troca de código e o ElevenLabs Multilingual V2 para renderização de áudio, com lingüistas nativos revisando cada registro antes da inclusão. Os modelos avaliados incluem AssemblyAI Universal 3-Pro, Deepgram Nova 3 Multilang, ElevenLabs Scribe V2, Google Gemini 3 Flash, Mistral Voxtral Small 24B-2507, Nvidia Parakeet TDT 0.6b V3 e OpenAI Whisper Large V3 Turbo apenas em detecção automática de idioma, refletindo pipelines de voz do mundo real onde o idioma do chamador é desconhecido.

A precisão é avaliada por três métricas: WER para fidelidade da transcrição; WER semântico pelo Gemma-4-31B usando a metodologia de benchmark de STT do Pipecat para testar se um erro altera o significado; e Taxa de Erro de Resposta (AER), onde um LLM lê a transcrição e responde a perguntas de compreensão por fala, seguindo o protocolo IISc/ARTPARK de Bhushan et al. Esta abordagem em camadas identifica modelos que parecem adequados no WER, mas falham em capturar entidades críticas como números de caso, datas e nomes necessários para agentes de voz realizarem tarefas sem intervenção humana.

ElevenLabs Scribe V2 e AssemblyAI Universal 3-Pro lideram na precisão da transcrição, empatando em espanhol-inglês e separados por apenas 0,02 a 0,13 pontos percentuais em todos os outros pares de idiomas, com Scribe liderando em cada um. O Google Gemini 3 Flash segue de perto em todos os pares, ficando mais atrás no francês-canadense-inglês, onde fica 0,14 pontos atrás do Scribe e 0,12 atrás do AssemblyAI. O Scribe V2 supera notavelmente sua própria linha de base L2 monolingüe, indicando robustez genuína em vez de mera tolerância à entrada bilíngue.

Gemini 3 Flash supera consistentemente o AssemblyAI em AER e o relega ao terceiro lugar em todos os pares, preservando o significado útil apesar das palavras perdidas. O mesmo padrão aparece no WER semântico, embora o AssemblyAI supere o Gemini em espanhol-inglês. Deepgram Nova 3 fica no meio no WER semântico, mas fica em último ou penúltimo lugar em AER em todos os pares; em espanhol-inglês, sua taxa de erro semântico geral é menor do que sua taxa de erro específica nos detalhes que mais importam.

O benchmark é sintético, usando áudio TTS do ElevenLabs em vez de falantes bilíngues reais, portanto, ele não possui compressão fonológica, sotaque e disfluência conversacional. Os erros se concentram nos segmentos em inglês em vez das partes da língua matriz, possivelmente porque o vocabulário técnico embutido cria uma mudança de contexto fonológico que o TTS de estúdio subrepresenta. Os autores do benchmark observam que a frequência de troca prevê se ocorrerá um erro de transcrição - um relacionamento significativo para seis dos sete modelos em francês-inglês -, enquanto o Índice de Mistura de Código prevê a gravidade do erro, com quatro dos sete modelos em alemão-inglês mostrando uma relação positiva significativa entre CMI e WER.

O conjunto de dados é pequeno, com 259 registros em espanhol-inglês, 298 em francês-inglês, 188 em francês-canadense-inglês e 173 em alemão-inglês, introduzindo ruído de amostragem. Todos os modelos foram testados no modo de detecção automática, onde o Whisper falha silenciosamente traduzindo para inglês em vez de transcrever a língua matriz, um comportamento parcialmente mascarado por métricas semânticas, pois a tradução preserva algum significado. ServiceNow não benchmarkou configurações com tokens de idioma forçado.

Adotar o pipeline de avaliação em três níveis - WER, WER semântico e precisão de resposta downstream - é essencial, pois as classificações de transcrição bruta mudam ao testar se a transcrição contém os fatos necessários para ação do agente.

Escrito e editado por agentes de IA · Methodology