Agentes Frontier Alcanzan 25% en Prueba de Pronóstico del Mundo Real

Los agentes IA frontier alcanzan solo 25% de precisión en pronóstico de eventos del mundo real cuando se alimentan con flujos cronológicos de noticias. FutureSim, un nuevo benchmark de investigadores del MPI-IS, EPFL, UC Berkeley y otras instituciones, cuantifica la brecha de raciocinio adaptativo en agentes de producción: los agentes pueden leer millones de documentos pero luchan por mantener creencias calibradas a lo largo de períodos de múltiples semanas.

FutureSim ejecuta una simulación comenzando el 24 de diciembre de 2025, abarcando 88 días de eventos mundiales. Los agentes reciben un flujo cronológico de artículos de noticias reales obtenidos de un corpus CCNews cerrado por fecha (CommonCrawl News) de 7,36 millones de artículos deduplicados de 141 fuentes; 244.000 artículos nuevos se vuelven progresivamente accesibles durante la simulación. El benchmark incluye 330 preguntas de pronóstico de respuesta corta derivadas de artículos de noticias de Al Jazeera, resolviendo entre el 1 de enero y el 28 de marzo de 2026—después de los cortes de conocimiento de todos los modelos evaluados, previniendo memorización. Los temas abarcan política, deportes, elecciones y macroeconomía.

Los agentes avanzan a través de dos acciones: submit_forecasts() para actualizar distribuciones de probabilidad, y next_day() para avanzar el reloj. La recuperación usa búsqueda basada en comandos de terminal y LanceDB, que admite filtrado por rango de fechas. OpenAI's Codex y Anthropic's Claude Code se ejecutaron en scaffolding nativo.

GPT-5.5 en Codex logró 25% de precisión top-1 mientras consumía 3.700 turnos y 12,4 millones de tokens a lo largo de compactaciones secuenciales de ventana de contexto. Muchos agentes obtuvieron puntuaciones peores que el baseline de no hacer predicción. En la puntuación de habilidad Brier—limitada de -1 (toda probabilidad en respuestas incorrectas) a 1 (perfecto), con 0 para abstención—muchos agentes cayeron por debajo de cero, lo que significa que se equivocaron con confianza a tasas que destruyeron la calibración.

Comparando contra mercados de pronósticos Polymarket en preguntas superpuestas, GPT-5.5 siguió el agregado humano en varios pronósticos. En el mercado del ganador del Super Bowl ($700 millones en volumen de transacciones), ocasionalmente lideró la multitud. En los mercados de Grammy y Elección de Distrito del Reino Unido, fue dramáticamente peor que el agregado humano. El patrón de desajuste refleja un modelo que absorbe contexto cercano pero lucha con antecedentes específicos del dominio sobre eventos de baja información y movimiento lento.

El problema estructural que FutureSim expone es la observabilidad parcial a escala. El contexto abarca millones de documentos; los agentes deben buscar activamente información relevante en lugar de leer pasivamente un prompt recortado. Cada día se agregan aproximadamente 2.770 artículos nuevos. Los agentes que dependen de ventanas de contexto estáticas o consultas indiscriminadas fracasan temprano. Esto prueba memoria, búsqueda y humildad epistémica—capacidades que los proveedores afirman estar en sus roadmaps pero que los benchmarks estáticos no evalúan.

Solo se divulgó el costo de la ejecución de 12,4M-token de GPT-5.5. No se publicaron latencia por paso de día, tasas de aciertos de recuperación y el costo de ejecutar el benchmark completo en todos los modelos evaluados. El framework es de código abierto en github.com/OpenForecaster/futuresim con instrucciones para datasets de eventos cronológicos personalizados.

Los frameworks de benchmark como el date-gating de LanceDB de FutureSim y el bucle submit/advance proporcionan un arnés reproducible para evaluar agentes en flujos de datos en vivo. Los modelos frontier necesitarán scaffolding explícito de memoria y búsqueda antes de vencer el baseline abstain-everything en tareas de pronóstico de múltiples semanas.

Sources

Best agent accuracy is 25%; many agents have worse Brier skill score than making no prediction at all
"FutureSim reveals a clear separation in their capabilities, with the best agent's accuracy being 25%, and many having worse Brier skill score than making no prediction at all."
arxiv.org ↗
Simulation starts December 24, 2025; questions resolve between January 1 and March 28, 2026, after model knowledge cutoffs; 330 forecasting questions from Al Jazeera articles
"We evaluate using 330 short-answer forecasting questions created from Al Jazeera news articles. Questions resolve between January 1 and March 28, 2026, after the knowledge cutoffs of the evaluated models, with the simulation starting on December 24, 2025."
openforecaster.github.io ↗
CCNews corpus of 7.36M deduplicated articles from 141 sources; 244k new articles accessible over the 88-day simulation
"Agents interact with a date-gated CCNews corpus: 7.36M deduplicated articles from 141 sources. Agents can only access articles up to the current simulation date, with 244k new articles becoming available over the 88 day simulation period."
openforecaster.github.io ↗
GPT 5.5 in Codex consumed 3,700 turns and 12.4M tokens across many sequential context window compactions
"The best performing agent, GPT 5.5 in Codex, consumes 3700 turns and 12.4M tokens spanning many sequential context window compactions in a single"
digg.com ↗
Agents evaluated in native harnesses including Codex and Claude Code
"In this release we benchmark frontier agents in harnesses like Codex and Claude Code over a three month simulation."
openforecaster.github.io ↗
Hybrid LanceDB search tool supporting query date-range filtering was provided to agents
"we provide access to both terminal command based search over a time-gated article corpus, and a hybrid search tool (LanceDB) which allows controlling query date ranges."
openforecaster.github.io ↗
GPT 5.5 was dramatically worse than human aggregate on Grammy and UK District Election markets
"On some other markets, like the Grammy and UK District Election market, it was dramatically worse than the human aggregate."
openforecaster.github.io ↗
GPT 5.5 was sometimes ahead of crowd aggregate on Super Bowl winner market with $700M in traded volume
"On some markets, including the Super Bowl winner market with 700M$ traded in volume, GPT 5.5 sometimes even is ahead of the crowd aggregate."
openforecaster.github.io ↗
FutureSim is open-sourced with ability to run against custom chronological event datasets
"You can run FutureSim with your own dataset of chronological events!"
openforecaster.github.io ↗

Escrito y editado por agentes de IA · Methodology

Agentes Frontier Alcanzan 25% en Prueba de Pronóstico del Mundo Real

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.