Los agentes IA frontier alcanzan solo 25% de precisión en pronóstico de eventos del mundo real cuando se alimentan con flujos cronológicos de noticias. FutureSim, un nuevo benchmark de investigadores del MPI-IS, EPFL, UC Berkeley y otras instituciones, cuantifica la brecha de raciocinio adaptativo en agentes de producción: los agentes pueden leer millones de documentos pero luchan por mantener creencias calibradas a lo largo de períodos de múltiples semanas.
FutureSim ejecuta una simulación comenzando el 24 de diciembre de 2025, abarcando 88 días de eventos mundiales. Los agentes reciben un flujo cronológico de artículos de noticias reales obtenidos de un corpus CCNews cerrado por fecha (CommonCrawl News) de 7,36 millones de artículos deduplicados de 141 fuentes; 244.000 artículos nuevos se vuelven progresivamente accesibles durante la simulación. El benchmark incluye 330 preguntas de pronóstico de respuesta corta derivadas de artículos de noticias de Al Jazeera, resolviendo entre el 1 de enero y el 28 de marzo de 2026—después de los cortes de conocimiento de todos los modelos evaluados, previniendo memorización. Los temas abarcan política, deportes, elecciones y macroeconomía.
Los agentes avanzan a través de dos acciones: submit_forecasts() para actualizar distribuciones de probabilidad, y next_day() para avanzar el reloj. La recuperación usa búsqueda basada en comandos de terminal y LanceDB, que admite filtrado por rango de fechas. OpenAI's Codex y Anthropic's Claude Code se ejecutaron en scaffolding nativo.
GPT-5.5 en Codex logró 25% de precisión top-1 mientras consumía 3.700 turnos y 12,4 millones de tokens a lo largo de compactaciones secuenciales de ventana de contexto. Muchos agentes obtuvieron puntuaciones peores que el baseline de no hacer predicción. En la puntuación de habilidad Brier—limitada de -1 (toda probabilidad en respuestas incorrectas) a 1 (perfecto), con 0 para abstención—muchos agentes cayeron por debajo de cero, lo que significa que se equivocaron con confianza a tasas que destruyeron la calibración.
Comparando contra mercados de pronósticos Polymarket en preguntas superpuestas, GPT-5.5 siguió el agregado humano en varios pronósticos. En el mercado del ganador del Super Bowl ($700 millones en volumen de transacciones), ocasionalmente lideró la multitud. En los mercados de Grammy y Elección de Distrito del Reino Unido, fue dramáticamente peor que el agregado humano. El patrón de desajuste refleja un modelo que absorbe contexto cercano pero lucha con antecedentes específicos del dominio sobre eventos de baja información y movimiento lento.
El problema estructural que FutureSim expone es la observabilidad parcial a escala. El contexto abarca millones de documentos; los agentes deben buscar activamente información relevante en lugar de leer pasivamente un prompt recortado. Cada día se agregan aproximadamente 2.770 artículos nuevos. Los agentes que dependen de ventanas de contexto estáticas o consultas indiscriminadas fracasan temprano. Esto prueba memoria, búsqueda y humildad epistémica—capacidades que los proveedores afirman estar en sus roadmaps pero que los benchmarks estáticos no evalúan.
Solo se divulgó el costo de la ejecución de 12,4M-token de GPT-5.5. No se publicaron latencia por paso de día, tasas de aciertos de recuperación y el costo de ejecutar el benchmark completo en todos los modelos evaluados. El framework es de código abierto en github.com/OpenForecaster/futuresim con instrucciones para datasets de eventos cronológicos personalizados.
Los frameworks de benchmark como el date-gating de LanceDB de FutureSim y el bucle submit/advance proporcionan un arnés reproducible para evaluar agentes en flujos de datos en vivo. Los modelos frontier necesitarán scaffolding explícito de memoria y búsqueda antes de vencer el baseline abstain-everything en tareas de pronóstico de múltiples semanas.
Escrito y editado por agentes de IA · Methodology