Seis Chatbots Apresentam Queda de 12 Pontos em Precisão em Notícias Hindi

Estudo de 14 dias que faz benchmark de seis grandes chatbots (Gemini 3 Flash/Pro, Grok 4, Claude 4.5 Sonnet, GPT-5, GPT-4o mini) em 2.100 questões factuais do BBC News em seis regiões. Os resultados provavelmente mostram que os modelos têm lacunas regionais: mesma pergunta respondida corretamente em uma região mas não em outra devido a vieses de integração de busca e lacunas de cobertura de notícias locais. Arquitetos construindo sistemas RAG ou QA localizados devem usar esta metodologia para auditar seus próprios deployments em busca de desvios regionais semelhantes.

Pesquisadores fizeram benchmark de seis chatbots em produção em notícias de última hora em seis idiomas e descobriram que viés de recuperação reduz a precisão em 10–12 pontos para usuários não-anglófonos. Gemini 3 Flash alcançou 91% em questões sobre notícias em inglês mas caiu para 79% em Hindi. Mesmos tipos de questão, mesmos modelos de raciocínio, diferentes pipelines de recuperação. O estudo de 9–22 de fevereiro, liderado por Mirac Suzgun e Emily Shen, consultou Gemini 3 Flash, Gemini 3 Pro, Grok 4, Claude 4.5 Sonnet, GPT-5 e GPT-4o mini em 2.100 questões factuais do BBC News do mesmo dia cobrindo US & Canada, árabe, África, Hindi, russo e turco.

Em questões de múltipla escolha, os modelos de topo alcançaram 90% de precisão em eventos noticiosos reportados horas antes. Formato de resposta livre custou aos melhores sistemas 11–13 pontos e trouxe a média do cohort para baixo 16–17 pontos. Usuários em produção fazem perguntas abertas, não clicam em prompts sugeridos.

Recuperação, não raciocínio, conduz a lacuna regional. Análise de citações mostra que modelos responderam consultas em Hindi roteando para Wikipedia em inglês mais frequentemente do que para outlets de notícias em Hindi. Quando modelos recuperaram a fonte correta, extraíram respostas em taxas altas. Mais de 70% dos erros rastreiam recuperação do documento errado, não raciocínio falho.

Consultas com premissas falsas expõem a vulnerabilidade mais profunda. Modelos pontuando 88–96% em questões limpas caíram para 19–70% de precisão quando questões embutiam erros factuais sutis. Um modelo aceitou premissas fabricadas 64% das vezes. Um paradoxo de precisão de detecção complica a recuperação: o modelo com melhor detecção de premissas falsas ficou em segundo lugar em robustez adversarial, enquanto um detector mais fraco ficou em primeiro. Capacidade de detecção e comportamento de recuperação são parcialmente independentes.

O paper não divulga latência por chamada ou valores de custo. Este é um estudo de avaliação, não um post-mortem de produção. Equipes não podem usá-lo para fazer tradeoff entre $/1M token ou p99 latência entre modelos. A contribuição é um benchmark replicável: questões derivadas de notícias diárias, cobertura de seis regiões, frescor do mesmo dia, formatos misto de múltipla escolha e resposta livre, e variantes adversariais de premissas falsas.

Alta precisão em inglês não se transfere para locales não-anglófonos. Um modelo mostrando 90% em eval em inglês executa em 79% ou menos nos idiomas que os usuários realmente falam. Logging em nível de citação é a única forma de superficializar viés de recuperação. Equipes fazendo A/B testing em conjuntos de retenção em inglês sub-medem desvio regional em 10+ pontos.

Antes de fazer deploy de um sistema QA apoiado por RAG em múltiplas locales, execute os benchmarks de premissas falsas e regionais deste estudo. Evals apenas em inglês exageram a qualidade de produção para usuários não-anglófonos em 10–12 pontos. Logging de fonte de recuperação é não-negociável para diagnóstico.

Sources

14-day evaluation (February 9–22, 2026) of six chatbots on 2,100 factual questions from BBC News across six regional services
"We present a 14-day (February 9-22, 2026) evaluation of six AI chatbots (Gemini 3 Flash and Pro, Grok 4, Claude 4.5 Sonnet, GPT-5 and GPT-4o mini) on 2,100 factual questions derived from same-day BBC News reporting across six regional services (US & Canada, Arabic, Afrique, Hindi, Russian, Turkish)."
arxiv.org ↗
Best systems achieve over 90% multiple-choice accuracy on questions about events reported hours earlier
"The best systems achieve over 90% multiple-choice accuracy on questions about events reported hours earlier."
arxiv.org ↗
Top systems lose 11–13 percentage points under free-response evaluation; cohort average drops 16–17 points
"The same systems, however, lose 11-13% under free-response evaluation, and 16-17% across the cohort."
arxiv.org ↗
Every model scores lowest on Hindi at 79% versus 89–91% accuracy in other regions — a 10–12 point gap
"every model achieves its lowest accuracy on Hindi (79% vs. 89-91% elsewhere)"
arxiv.org ↗
Models answering Hindi queries cite English Wikipedia more than any Hindi outlet — Anglophone retrieval bias
"citations indicate an Anglophone retrieval bias (e.g., models answering Hindi queries cite English Wikipedia more than any Hindi outlet)"
arxiv.org ↗
Retrieval failures, not reasoning failures, account for more than 70% of all errors
"retrieval, not reasoning, failures drive over 70% of all errors. When models retrieve a correct source, they often extract the correct answer; the problem is to land on the right source in the first place."
arxiv.org ↗
Models with 88–96% accuracy on well-formed questions drop to 19–70% when questions contain subtle false premises; most vulnerable model accepts fabricated facts 64% of the time
"models achieving 88-96% accuracy on well-formed questions drop to 19-70% when questions contain subtle false premises, with the most vulnerable model accepting fabricated facts 64% of the time."
arxiv.org ↗
Detection-accuracy paradox: best false-premise detector ranks second in adversarial accuracy; detection and recovery are partially independent capabilities
"the best false-premise detector ranks second in adversarial accuracy (abstention rate), while a weaker detector ranks first, showing that premise detection and answer recovery are partially independent capabilities."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Seis Chatbots Apresentam Queda de 12 Pontos em Precisão em Notícias Hindi

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.