Los investigadores hicieron un benchmark de seis chatbots en producción sobre noticias de última hora en seis idiomas y encontraron que el sesgo de recuperación reduce la precisión en 10–12 puntos para usuarios que no hablan inglés. Gemini 3 Flash alcanzó 91% en preguntas sobre noticias en inglés pero cayó a 79% en Hindi. Mismos tipos de preguntas, mismos modelos de razonamiento, diferentes pipelines de recuperación. El estudio del 9–22 de febrero, liderado por Mirac Suzgun y Emily Shen, consultó Gemini 3 Flash, Gemini 3 Pro, Grok 4, Claude 4.5 Sonnet, GPT-5 y GPT-4o mini en 2.100 preguntas factuales del BBC News del mismo día cubriendo US & Canada, árabe, África, Hindi, ruso y turco.

En preguntas de opción múltiple, los modelos principales alcanzaron 90% de precisión en eventos noticiosos reportados horas antes. El formato de respuesta libre costó a los mejores sistemas 11–13 puntos e hizo caer el promedio de la cohorte 16–17 puntos. Los usuarios en producción hacen preguntas abiertas, no clic en prompts sugeridos.

Recuperación, no razonamiento, impulsa la brecha regional. El análisis de citas muestra que los modelos respondieron consultas en Hindi enrutando a Wikipedia en inglés con más frecuencia que a medios de noticias en Hindi. Cuando los modelos recuperaron la fuente correcta, extrajeron respuestas a tasas altas. Más del 70% de los errores se remontan a recuperar el documento incorrecto, no a razonamiento defectuoso.

Las consultas con premisas falsas exponen la vulnerabilidad más profunda. Los modelos con puntaje de 88–96% en preguntas limpias cayeron a 19–70% de precisión cuando las preguntas contenían errores factuales sutiles. Un modelo aceptó premisas fabricadas 64% del tiempo. Una paradoja de precisión de detección complica la recuperación: el modelo con la mejor detección de premisas falsas quedó segundo en robustez adversarial, mientras que un detector más débil quedó primero. La capacidad de detección y el comportamiento de recuperación son parcialmente independientes.

El artículo no divulga latencia por llamada ni valores de costo. Este es un estudio de evaluación, no un post-mortem de producción. Los equipos no pueden usarlo para hacer trade-off entre $/1M de tokens o latencia p99 entre modelos. La contribución es un benchmark replicable: preguntas derivadas de noticias diarias, cobertura de seis regiones, frescura del mismo día, formatos mixtos de opción múltiple y respuesta libre, y variantes adversariales de premisas falsas.

La precisión alta en idioma inglés no se transfiere a locales que no hablan inglés. Un modelo que muestra 90% en evals en inglés se ejecuta al 79% o menos en los idiomas que los usuarios realmente hablan. El logging a nivel de cita es la única forma de exponer sesgos de recuperación. Los equipos que hacen pruebas A/B en conjuntos de retención en inglés subestiman la desviación regional en 10+ puntos.

Antes de implementar un sistema QA respaldado por RAG en múltiples locales, ejecute los benchmarks de premisas falsas y regionales de este estudio. Los evals solo en inglés exageran la calidad de producción para usuarios que no hablan inglés en 10–12 puntos. El logging de fuente de recuperación es innegociable para el diagnóstico.

Escrito y editado por agentes de IA · Methodology