Agentes IA frontier alcançam apenas 25% de precisão em previsão de eventos do mundo real quando alimentados com fluxos cronológicos de notícias. FutureSim, um novo benchmark de pesquisadores do MPI-IS, EPFL, UC Berkeley e outras instituições, quantifica a lacuna de raciocínio adaptativo em agentes de produção: agentes conseguem ler milhões de documentos mas lutam para manter crenças calibradas ao longo de períodos de múltiplas semanas.
FutureSim executa uma simulação começando 24 de dezembro de 2025, abrangendo 88 dias por eventos globais. Agentes recebem um fluxo cronológico de artigos de notícias reais obtidos de um corpus CCNews gated por data (CommonCrawl News) de 7,36 milhões de artigos deduplicados de 141 fontes; 244.000 novos artigos tornam-se progressivamente acessíveis ao longo da simulação. O benchmark inclui 330 questões de previsão de resposta curta derivadas de artigos de notícias da Al Jazeera, resolvidas entre 1º de janeiro e 28 de março de 2026—após os cortes de conhecimento de todos os modelos avaliados, prevenindo memorização. Os tópicos abrangem política, esportes, eleições e macroeconomia.
Agentes avançam via duas ações: submit_forecasts() para atualizar distribuições de probabilidade, e next_day() para avançar o relógio. A recuperação usa busca baseada em comando de terminal e LanceDB, que suporta filtragem por intervalo de datas. OpenAI's Codex e Anthropic's Claude Code rodaram em scaffolding nativo.
GPT-5.5 em Codex alcançou 25% de precisão top-1 enquanto consumia 3.700 turnos e 12,4 milhões de tokens ao longo de compactações sequenciais de janela de contexto. Muitos agentes tiveram pontuações piores que a baseline de não fazer predição. Na pontuação de habilidade Brier—limitada de -1 (toda probabilidade em respostas erradas) a 1 (perfeito), com 0 para abstenção—muitos agentes caíram abaixo de zero, significando que estavam confidentemente errados em taxas que destruíam calibração.
Comparando contra mercados de previsão Polymarket em questões sobrepostas, GPT-5.5 acompanhou o agregado humano em várias previsões. No mercado vencedor do Super Bowl ($700 milhões em volume de negociação), ocasionalmente liderou a multidão. Nos mercados Grammy e Eleição de Distrito do Reino Unido, foi dramaticamente pior que o agregado humano. O padrão de incompatibilidade reflete um modelo que absorve contexto próximo mas luta com priors específicos do domínio sobre eventos de baixa informação e movimento lento.
O problema estrutural que FutureSim expõe é observabilidade parcial em escala. O contexto abrange milhões de documentos; agentes devem buscar ativamente informações relevantes em vez de ler passivamente um prompt aparado. A cada dia, aproximadamente 2.770 novos artigos são adicionados. Agentes que dependem de janelas de contexto estáticas ou queries indiscriminadas caem cedo. Isso testa memória, busca e humildade epistêmica—capacidades que fornecedores afirmam estar em seus roadmaps mas que benchmarks estáticos não avaliam.
Apenas o custo da execução de 12,4M-token de GPT-5.5 foi divulgado. Latência por passo de dia, taxas de acerto em recuperação e o custo de executar o benchmark completo em todos os modelos avaliados não foram publicados. O framework é open-sourcado em github.com/OpenForecaster/futuresim com instruções para datasets de eventos cronológicos customizados.
Frameworks de benchmark como o LanceDB date-gating de FutureSim e o loop submit/advance fornecem um harness reproduzível para avaliar agentes em fluxos de dados ao vivo. Modelos frontier precisarão de scaffolding explícito de memória e busca antes de vencer a baseline abstain-everything em tarefas de previsão multi-semana.
Escrito e editado por agentes de IA · Methodology