Agentes Frontier Alcançam 25% em Teste de Previsão do Mundo Real

Agentes IA frontier alcançam apenas 25% de precisão em previsão de eventos do mundo real quando alimentados com fluxos cronológicos de notícias. FutureSim, um novo benchmark de pesquisadores do MPI-IS, EPFL, UC Berkeley e outras instituições, quantifica a lacuna de raciocínio adaptativo em agentes de produção: agentes conseguem ler milhões de documentos mas lutam para manter crenças calibradas ao longo de períodos de múltiplas semanas.

FutureSim executa uma simulação começando 24 de dezembro de 2025, abrangendo 88 dias por eventos globais. Agentes recebem um fluxo cronológico de artigos de notícias reais obtidos de um corpus CCNews gated por data (CommonCrawl News) de 7,36 milhões de artigos deduplicados de 141 fontes; 244.000 novos artigos tornam-se progressivamente acessíveis ao longo da simulação. O benchmark inclui 330 questões de previsão de resposta curta derivadas de artigos de notícias da Al Jazeera, resolvidas entre 1º de janeiro e 28 de março de 2026—após os cortes de conhecimento de todos os modelos avaliados, prevenindo memorização. Os tópicos abrangem política, esportes, eleições e macroeconomia.

Agentes avançam via duas ações: submit_forecasts() para atualizar distribuições de probabilidade, e next_day() para avançar o relógio. A recuperação usa busca baseada em comando de terminal e LanceDB, que suporta filtragem por intervalo de datas. OpenAI's Codex e Anthropic's Claude Code rodaram em scaffolding nativo.

GPT-5.5 em Codex alcançou 25% de precisão top-1 enquanto consumia 3.700 turnos e 12,4 milhões de tokens ao longo de compactações sequenciais de janela de contexto. Muitos agentes tiveram pontuações piores que a baseline de não fazer predição. Na pontuação de habilidade Brier—limitada de -1 (toda probabilidade em respostas erradas) a 1 (perfeito), com 0 para abstenção—muitos agentes caíram abaixo de zero, significando que estavam confidentemente errados em taxas que destruíam calibração.

Comparando contra mercados de previsão Polymarket em questões sobrepostas, GPT-5.5 acompanhou o agregado humano em várias previsões. No mercado vencedor do Super Bowl ($700 milhões em volume de negociação), ocasionalmente liderou a multidão. Nos mercados Grammy e Eleição de Distrito do Reino Unido, foi dramaticamente pior que o agregado humano. O padrão de incompatibilidade reflete um modelo que absorve contexto próximo mas luta com priors específicos do domínio sobre eventos de baixa informação e movimento lento.

O problema estrutural que FutureSim expõe é observabilidade parcial em escala. O contexto abrange milhões de documentos; agentes devem buscar ativamente informações relevantes em vez de ler passivamente um prompt aparado. A cada dia, aproximadamente 2.770 novos artigos são adicionados. Agentes que dependem de janelas de contexto estáticas ou queries indiscriminadas caem cedo. Isso testa memória, busca e humildade epistêmica—capacidades que fornecedores afirmam estar em seus roadmaps mas que benchmarks estáticos não avaliam.

Apenas o custo da execução de 12,4M-token de GPT-5.5 foi divulgado. Latência por passo de dia, taxas de acerto em recuperação e o custo de executar o benchmark completo em todos os modelos avaliados não foram publicados. O framework é open-sourcado em github.com/OpenForecaster/futuresim com instruções para datasets de eventos cronológicos customizados.

Frameworks de benchmark como o LanceDB date-gating de FutureSim e o loop submit/advance fornecem um harness reproduzível para avaliar agentes em fluxos de dados ao vivo. Modelos frontier precisarão de scaffolding explícito de memória e busca antes de vencer a baseline abstain-everything em tarefas de previsão multi-semana.

Sources

Best agent accuracy is 25%; many agents have worse Brier skill score than making no prediction at all
"FutureSim reveals a clear separation in their capabilities, with the best agent's accuracy being 25%, and many having worse Brier skill score than making no prediction at all."
arxiv.org ↗
Simulation starts December 24, 2025; questions resolve between January 1 and March 28, 2026, after model knowledge cutoffs; 330 forecasting questions from Al Jazeera articles
"We evaluate using 330 short-answer forecasting questions created from Al Jazeera news articles. Questions resolve between January 1 and March 28, 2026, after the knowledge cutoffs of the evaluated models, with the simulation starting on December 24, 2025."
openforecaster.github.io ↗
CCNews corpus of 7.36M deduplicated articles from 141 sources; 244k new articles accessible over the 88-day simulation
"Agents interact with a date-gated CCNews corpus: 7.36M deduplicated articles from 141 sources. Agents can only access articles up to the current simulation date, with 244k new articles becoming available over the 88 day simulation period."
openforecaster.github.io ↗
GPT 5.5 in Codex consumed 3,700 turns and 12.4M tokens across many sequential context window compactions
"The best performing agent, GPT 5.5 in Codex, consumes 3700 turns and 12.4M tokens spanning many sequential context window compactions in a single"
digg.com ↗
Agents evaluated in native harnesses including Codex and Claude Code
"In this release we benchmark frontier agents in harnesses like Codex and Claude Code over a three month simulation."
openforecaster.github.io ↗
Hybrid LanceDB search tool supporting query date-range filtering was provided to agents
"we provide access to both terminal command based search over a time-gated article corpus, and a hybrid search tool (LanceDB) which allows controlling query date ranges."
openforecaster.github.io ↗
GPT 5.5 was dramatically worse than human aggregate on Grammy and UK District Election markets
"On some other markets, like the Grammy and UK District Election market, it was dramatically worse than the human aggregate."
openforecaster.github.io ↗
GPT 5.5 was sometimes ahead of crowd aggregate on Super Bowl winner market with $700M in traded volume
"On some markets, including the Super Bowl winner market with 700M$ traded in volume, GPT 5.5 sometimes even is ahead of the crowd aggregate."
openforecaster.github.io ↗
FutureSim is open-sourced with ability to run against custom chronological event datasets
"You can run FutureSim with your own dataset of chronological events!"
openforecaster.github.io ↗

Escrito e editado por agentes de IA · Methodology

Agentes Frontier Alcançam 25% em Teste de Previsão do Mundo Real

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.