Seis Chatbots Muestran Caída de 12 Puntos en Precisión en Noticias Hindi

Estudio de 14 días que compara seis chatbots principales (Gemini 3 Flash/Pro, Grok 4, Claude 4.5 Sonnet, GPT-5, GPT-4o mini) en 2.100 preguntas factuales del BBC News en seis regiones. Los resultados probablemente muestren que los modelos tienen puntos ciegos regionales: misma pregunta respondida correctamente en una región pero no en otra debido a sesgos de integración de búsqueda y brechas en la cobertura de noticias locales. Los arquitectos que construyen sistemas RAG o QA localizados deben usar esta metodología para auditar sus propios deployments en busca de desvíos regionales similares.

Los investigadores hicieron un benchmark de seis chatbots en producción sobre noticias de última hora en seis idiomas y encontraron que el sesgo de recuperación reduce la precisión en 10–12 puntos para usuarios que no hablan inglés. Gemini 3 Flash alcanzó 91% en preguntas sobre noticias en inglés pero cayó a 79% en Hindi. Mismos tipos de preguntas, mismos modelos de razonamiento, diferentes pipelines de recuperación. El estudio del 9–22 de febrero, liderado por Mirac Suzgun y Emily Shen, consultó Gemini 3 Flash, Gemini 3 Pro, Grok 4, Claude 4.5 Sonnet, GPT-5 y GPT-4o mini en 2.100 preguntas factuales del BBC News del mismo día cubriendo US & Canada, árabe, África, Hindi, ruso y turco.

En preguntas de opción múltiple, los modelos principales alcanzaron 90% de precisión en eventos noticiosos reportados horas antes. El formato de respuesta libre costó a los mejores sistemas 11–13 puntos e hizo caer el promedio de la cohorte 16–17 puntos. Los usuarios en producción hacen preguntas abiertas, no clic en prompts sugeridos.

Recuperación, no razonamiento, impulsa la brecha regional. El análisis de citas muestra que los modelos respondieron consultas en Hindi enrutando a Wikipedia en inglés con más frecuencia que a medios de noticias en Hindi. Cuando los modelos recuperaron la fuente correcta, extrajeron respuestas a tasas altas. Más del 70% de los errores se remontan a recuperar el documento incorrecto, no a razonamiento defectuoso.

Las consultas con premisas falsas exponen la vulnerabilidad más profunda. Los modelos con puntaje de 88–96% en preguntas limpias cayeron a 19–70% de precisión cuando las preguntas contenían errores factuales sutiles. Un modelo aceptó premisas fabricadas 64% del tiempo. Una paradoja de precisión de detección complica la recuperación: el modelo con la mejor detección de premisas falsas quedó segundo en robustez adversarial, mientras que un detector más débil quedó primero. La capacidad de detección y el comportamiento de recuperación son parcialmente independientes.

El artículo no divulga latencia por llamada ni valores de costo. Este es un estudio de evaluación, no un post-mortem de producción. Los equipos no pueden usarlo para hacer trade-off entre $/1M de tokens o latencia p99 entre modelos. La contribución es un benchmark replicable: preguntas derivadas de noticias diarias, cobertura de seis regiones, frescura del mismo día, formatos mixtos de opción múltiple y respuesta libre, y variantes adversariales de premisas falsas.

La precisión alta en idioma inglés no se transfiere a locales que no hablan inglés. Un modelo que muestra 90% en evals en inglés se ejecuta al 79% o menos en los idiomas que los usuarios realmente hablan. El logging a nivel de cita es la única forma de exponer sesgos de recuperación. Los equipos que hacen pruebas A/B en conjuntos de retención en inglés subestiman la desviación regional en 10+ puntos.

Antes de implementar un sistema QA respaldado por RAG en múltiples locales, ejecute los benchmarks de premisas falsas y regionales de este estudio. Los evals solo en inglés exageran la calidad de producción para usuarios que no hablan inglés en 10–12 puntos. El logging de fuente de recuperación es innegociable para el diagnóstico.

Sources

14-day evaluation (February 9–22, 2026) of six chatbots on 2,100 factual questions from BBC News across six regional services
"We present a 14-day (February 9-22, 2026) evaluation of six AI chatbots (Gemini 3 Flash and Pro, Grok 4, Claude 4.5 Sonnet, GPT-5 and GPT-4o mini) on 2,100 factual questions derived from same-day BBC News reporting across six regional services (US & Canada, Arabic, Afrique, Hindi, Russian, Turkish)."
arxiv.org ↗
Best systems achieve over 90% multiple-choice accuracy on questions about events reported hours earlier
"The best systems achieve over 90% multiple-choice accuracy on questions about events reported hours earlier."
arxiv.org ↗
Top systems lose 11–13 percentage points under free-response evaluation; cohort average drops 16–17 points
"The same systems, however, lose 11-13% under free-response evaluation, and 16-17% across the cohort."
arxiv.org ↗
Every model scores lowest on Hindi at 79% versus 89–91% accuracy in other regions — a 10–12 point gap
"every model achieves its lowest accuracy on Hindi (79% vs. 89-91% elsewhere)"
arxiv.org ↗
Models answering Hindi queries cite English Wikipedia more than any Hindi outlet — Anglophone retrieval bias
"citations indicate an Anglophone retrieval bias (e.g., models answering Hindi queries cite English Wikipedia more than any Hindi outlet)"
arxiv.org ↗
Retrieval failures, not reasoning failures, account for more than 70% of all errors
"retrieval, not reasoning, failures drive over 70% of all errors. When models retrieve a correct source, they often extract the correct answer; the problem is to land on the right source in the first place."
arxiv.org ↗
Models with 88–96% accuracy on well-formed questions drop to 19–70% when questions contain subtle false premises; most vulnerable model accepts fabricated facts 64% of the time
"models achieving 88-96% accuracy on well-formed questions drop to 19-70% when questions contain subtle false premises, with the most vulnerable model accepting fabricated facts 64% of the time."
arxiv.org ↗
Detection-accuracy paradox: best false-premise detector ranks second in adversarial accuracy; detection and recovery are partially independent capabilities
"the best false-premise detector ranks second in adversarial accuracy (abstention rate), while a weaker detector ranks first, showing that premise detection and answer recovery are partially independent capabilities."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Seis Chatbots Muestran Caída de 12 Puntos en Precisión en Noticias Hindi

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.