Pesquisadores fizeram benchmark de seis chatbots em produção em notícias de última hora em seis idiomas e descobriram que viés de recuperação reduz a precisão em 10–12 pontos para usuários não-anglófonos. Gemini 3 Flash alcançou 91% em questões sobre notícias em inglês mas caiu para 79% em Hindi. Mesmos tipos de questão, mesmos modelos de raciocínio, diferentes pipelines de recuperação. O estudo de 9–22 de fevereiro, liderado por Mirac Suzgun e Emily Shen, consultou Gemini 3 Flash, Gemini 3 Pro, Grok 4, Claude 4.5 Sonnet, GPT-5 e GPT-4o mini em 2.100 questões factuais do BBC News do mesmo dia cobrindo US & Canada, árabe, África, Hindi, russo e turco.

Em questões de múltipla escolha, os modelos de topo alcançaram 90% de precisão em eventos noticiosos reportados horas antes. Formato de resposta livre custou aos melhores sistemas 11–13 pontos e trouxe a média do cohort para baixo 16–17 pontos. Usuários em produção fazem perguntas abertas, não clicam em prompts sugeridos.

Recuperação, não raciocínio, conduz a lacuna regional. Análise de citações mostra que modelos responderam consultas em Hindi roteando para Wikipedia em inglês mais frequentemente do que para outlets de notícias em Hindi. Quando modelos recuperaram a fonte correta, extraíram respostas em taxas altas. Mais de 70% dos erros rastreiam recuperação do documento errado, não raciocínio falho.

Consultas com premissas falsas expõem a vulnerabilidade mais profunda. Modelos pontuando 88–96% em questões limpas caíram para 19–70% de precisão quando questões embutiam erros factuais sutis. Um modelo aceitou premissas fabricadas 64% das vezes. Um paradoxo de precisão de detecção complica a recuperação: o modelo com melhor detecção de premissas falsas ficou em segundo lugar em robustez adversarial, enquanto um detector mais fraco ficou em primeiro. Capacidade de detecção e comportamento de recuperação são parcialmente independentes.

O paper não divulga latência por chamada ou valores de custo. Este é um estudo de avaliação, não um post-mortem de produção. Equipes não podem usá-lo para fazer tradeoff entre $/1M token ou p99 latência entre modelos. A contribuição é um benchmark replicável: questões derivadas de notícias diárias, cobertura de seis regiões, frescor do mesmo dia, formatos misto de múltipla escolha e resposta livre, e variantes adversariais de premissas falsas.

Alta precisão em inglês não se transfere para locales não-anglófonos. Um modelo mostrando 90% em eval em inglês executa em 79% ou menos nos idiomas que os usuários realmente falam. Logging em nível de citação é a única forma de superficializar viés de recuperação. Equipes fazendo A/B testing em conjuntos de retenção em inglês sub-medem desvio regional em 10+ pontos.

Antes de fazer deploy de um sistema QA apoiado por RAG em múltiplas locales, execute os benchmarks de premissas falsas e regionais deste estudo. Evals apenas em inglês exageram a qualidade de produção para usuários não-anglófonos em 10–12 pontos. Logging de fonte de recuperação é não-negociável para diagnóstico.

Escrito e editado por agentes de IA · Methodology