Pesquisadores de Pequim divulgam DeepWeb-Bench, expondo falhas de derivação em IA de fronteira

Recuperação não é seu problema de pesquisa profunda — derivação é. DeepWeb-Bench, um benchmark de pesquisadores da Universidade de Pequim publicado no arXiv 20 de maio de 2026, submete a teste nove agentes IA de fronteira em tarefas que exigem montagem massiva de evidência entre fontes e derivação multi-etapa de horizonte longo. Avaliações existentes perderam sinal discriminativo conforme agentes de fronteira elevam pontuações para o teto.

Os arquitetos do benchmark inserem dificuldade em três propriedades: coleta massiva de evidência, reconciliação entre fontes onde agentes devem reconciliar fontes conflitantes, e derivação multi-etapa de horizonte longo entre várias camadas de aritmética e modelagem. Estas se operacionalizam em quatro famílias de capacidade — Recuperação, Derivação, Raciocínio e Calibração. Toda tarefa produz uma matriz pontuada de entidades contra dimensões analíticas em vez de uma pontuação de juiz em forma livre. Cada resposta de referência carrega um registro de proveniência de fonte com quatro níveis de divulgação e verificações entre fontes onde disponível, permitindo que equipes auditem quais fontes suportam cada célula pontuada.

Nove modelos foram avaliados sob dois harnesses CLI: Codex CLI emparelhado com GPT-5.5, e Claude Code CLI emparelhado com modelos de fronteira incluindo Claude Opus 4.7. Custo de inferência, orçamento de token por tarefa e latência não são divulgados.

Os três achados principais são precisos o suficiente para impulsionar decisões de arquitetura. Falhas de recuperação representam 12–14% dos erros entre o conjunto de modelos; falhas de derivação e calibração conjuntamente representam mais de 70%. Modelos fortes falham em derivação incompleta — eles recuperam a evidência correta mas não conseguem compô-la completamente — enquanto modelos fracos falham em precisão alucinada, fabricando números específicos com confiança falsa. Modelos mostram especialização genuína de domínio, com concordância entre modelos de apenas ρ = 0,61 e discordância por caso atingindo 18,8 pontos percentuais. Nenhum modelo único domina entre todos os tipos de tarefa.

O artigo não exibe rankings de modelo no resumo ou página de projeto. Arquitetos avaliando reclamações de fornecedores contra DeepWeb-Bench devem executar o benchmark por si mesmos usando dados, rubrics e código de avaliação lançados. O design entidades-por-dimensões-analíticas permite pontuação de crédito parcial, mas definições de rubric exatas e código de pontuação são a substância do lançamento.

DeepWeb-Bench explicitamente visa a fronteira atual, correspondendo ao que BrowseComp, GAIA e outros benchmarks "difíceis" reivindicavam no lançamento. Tarefas de estilo analista financeiro como arquivos regulatórios e transcrições de ganhos são bem adequadas aos modos de erro atuais mas se saturarão uma vez que modelos confiabilizem derivações multi-etapa. O registro de proveniência de nível de quatro divulgações de fato compra mais espaço que avaliações de resposta única, porque um modelo deve atribuir cada etapa corretamente.

Para stacks de pesquisa profunda em produção, falha de calibração é o sinal mais acionável: agentes devem aprender a abster-se quando evidência está ausente em vez de confabular uma resposta que soa precisa. Equipes usando agentes de pesquisa profunda para fluxos de trabalho financeiros ou de conformidade devem instrumentar taxa de abstenção especificamente, não apenas acurácia de resposta final, antes de confiar em outputs.

Sources

DeepWeb-Bench evaluates nine frontier models on tasks demanding massive cross-source evidence assembly and long-horizon multi-step derivation
"We evaluate DeepWeb-Bench on nine frontier models, including Codex CLI (the Codex command-line interface) + GPT-5.5 and eight models hosted through Claude Code CLI"
arxiv.org ↗
Retrieval failures account for only 12–14% of errors; derivation and calibration failures account for over 70%
"retrieval failures account for only 12–14% of errors while derivation and calibration failures account for over 70%"
arxiv.org ↗
Strong models' errors are dominated by incomplete derivation; weak models' by hallucinated precision
"strong models' errors dominated by incomplete derivation and weak models' by hallucinated precision"
arxiv.org ↗
Cross-model agreement is only ρ = 0.61 with per-case disagreement reaching 18.8 percentage points
"models exhibit genuine specialization across domains, with cross-model agreement of only ρ=0.61 and per-case disagreement reaching 18.8 percentage points"
arxiv.org ↗
Each task requires massive evidence collection, cross-source reconciliation, and long-horizon multi-step derivation — operationalized as four capability families: Retrieval, Derivation, Reasoning, and Calibration
"We represent these three sources of difficulty as four capability families (Retrieval, Derivation, Reasoning, and Calibration) and report results sliced by family."
arxiv.org ↗
Every reference answer is accompanied by a source-provenance record with four disclosure levels and cross-source checks where available
"Every reference answer is accompanied by a source-provenance record with four disclosure levels and cross-source checks where available, making scores easier to audit against the underlying evidence."
arxiv.org ↗
The public benchmark release includes data, rubrics, and evaluation code
"The public benchmark release includes the data, rubrics, and evaluation code."
arxiv.org ↗
Frontier deep research products score highly on existing benchmarks, producing insufficient discriminative headroom
"Frontier deep research products score high on existing benchmarks, making it difficult to distinguish their capabilities from current evaluation data alone."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Pesquisadores de Pequim divulgam DeepWeb-Bench, expondo falhas de derivação em IA de fronteira

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.