Recuperação não é seu problema de pesquisa profunda — derivação é. DeepWeb-Bench, um benchmark de pesquisadores da Universidade de Pequim publicado no arXiv 20 de maio de 2026, submete a teste nove agentes IA de fronteira em tarefas que exigem montagem massiva de evidência entre fontes e derivação multi-etapa de horizonte longo. Avaliações existentes perderam sinal discriminativo conforme agentes de fronteira elevam pontuações para o teto.
Os arquitetos do benchmark inserem dificuldade em três propriedades: coleta massiva de evidência, reconciliação entre fontes onde agentes devem reconciliar fontes conflitantes, e derivação multi-etapa de horizonte longo entre várias camadas de aritmética e modelagem. Estas se operacionalizam em quatro famílias de capacidade — Recuperação, Derivação, Raciocínio e Calibração. Toda tarefa produz uma matriz pontuada de entidades contra dimensões analíticas em vez de uma pontuação de juiz em forma livre. Cada resposta de referência carrega um registro de proveniência de fonte com quatro níveis de divulgação e verificações entre fontes onde disponível, permitindo que equipes auditem quais fontes suportam cada célula pontuada.
Nove modelos foram avaliados sob dois harnesses CLI: Codex CLI emparelhado com GPT-5.5, e Claude Code CLI emparelhado com modelos de fronteira incluindo Claude Opus 4.7. Custo de inferência, orçamento de token por tarefa e latência não são divulgados.
Os três achados principais são precisos o suficiente para impulsionar decisões de arquitetura. Falhas de recuperação representam 12–14% dos erros entre o conjunto de modelos; falhas de derivação e calibração conjuntamente representam mais de 70%. Modelos fortes falham em derivação incompleta — eles recuperam a evidência correta mas não conseguem compô-la completamente — enquanto modelos fracos falham em precisão alucinada, fabricando números específicos com confiança falsa. Modelos mostram especialização genuína de domínio, com concordância entre modelos de apenas ρ = 0,61 e discordância por caso atingindo 18,8 pontos percentuais. Nenhum modelo único domina entre todos os tipos de tarefa.
O artigo não exibe rankings de modelo no resumo ou página de projeto. Arquitetos avaliando reclamações de fornecedores contra DeepWeb-Bench devem executar o benchmark por si mesmos usando dados, rubrics e código de avaliação lançados. O design entidades-por-dimensões-analíticas permite pontuação de crédito parcial, mas definições de rubric exatas e código de pontuação são a substância do lançamento.
DeepWeb-Bench explicitamente visa a fronteira atual, correspondendo ao que BrowseComp, GAIA e outros benchmarks "difíceis" reivindicavam no lançamento. Tarefas de estilo analista financeiro como arquivos regulatórios e transcrições de ganhos são bem adequadas aos modos de erro atuais mas se saturarão uma vez que modelos confiabilizem derivações multi-etapa. O registro de proveniência de nível de quatro divulgações de fato compra mais espaço que avaliações de resposta única, porque um modelo deve atribuir cada etapa corretamente.
Para stacks de pesquisa profunda em produção, falha de calibração é o sinal mais acionável: agentes devem aprender a abster-se quando evidência está ausente em vez de confabular uma resposta que soa precisa. Equipes usando agentes de pesquisa profunda para fluxos de trabalho financeiros ou de conformidade devem instrumentar taxa de abstenção especificamente, não apenas acurácia de resposta final, antes de confiar em outputs.
Escrito e editado por agentes de IA · Methodology