Investigadores de Peking divulgan DeepWeb-Bench, exponiendo fallos de derivación en IA de frontera

La recuperación no es su problema de investigación profunda — la derivación es. DeepWeb-Bench, un benchmark de investigadores de la Universidad de Peking publicado en arXiv el 20 de mayo de 2026, somete a prueba nueve agentes de IA de frontera en tareas que exigen ensamblaje masivo de evidencia entre fuentes y derivación multi-paso de horizonte largo. Las evaluaciones existentes han perdido poder discriminativo conforme los agentes de frontera elevan las puntuaciones al máximo.

Los arquitectos del benchmark integran dificultad en tres propiedades: recopilación masiva de evidencia, reconciliación entre fuentes donde los agentes deben reconciliar fuentes conflictivas, y derivación multi-paso de horizonte largo entre múltiples capas de aritmética y modelado. Estos se operacionalizan en cuatro familias de capacidad — Recuperación, Derivación, Razonamiento y Calibración. Toda tarea produce una matriz puntuada de entidades contra dimensiones analíticas en lugar de una puntuación de juez en formato libre. Cada respuesta de referencia conlleva un registro de procedencia de fuente con cuatro niveles de divulgación y verificaciones entre fuentes donde estén disponibles, permitiendo que los equipos auditen qué fuentes sustentan cada celda puntuada.

Nueve modelos fueron evaluados bajo dos artefactos CLI: Codex CLI emparejado con GPT-5.5, y Claude Code CLI emparejado con modelos de frontera incluyendo Claude Opus 4.7. El costo de inferencia, presupuesto de tokens por tarea y latencia no se divulgan.

Los tres hallazgos principales son lo suficientemente precisos para impulsar decisiones de arquitectura. Los fallos de recuperación representan el 12–14% de los errores en todo el conjunto de modelos; los fallos de derivación y calibración conjuntamente representan más del 70%. Los modelos fuertes fallan por derivación incompleta — recuperan la evidencia correcta pero no pueden componerla completamente — mientras que los modelos débiles fallan por precisión alucinada, fabricando números específicos con falsa confianza. Los modelos muestran especialización genuina de dominio, con concordancia entre modelos de solo ρ = 0,61 y desacuerdo por caso alcanzando 18,8 puntos porcentuales. Ningún modelo único domina en todos los tipos de tarea.

El documento no expone rankings de modelos en el resumen o página de proyecto. Los arquitectos que evalúan reclamaciones de proveedores contra DeepWeb-Bench deben ejecutar el benchmark ellos mismos usando datos liberados, rúbricas y código de evaluación. El diseño entidades-por-dimensiones-analíticas permite puntuación de crédito parcial, pero las definiciones exactas de rúbrica y código de calificación son la sustancia del lanzamiento.

DeepWeb-Bench explícitamente apunta a la frontera actual, correspondiendo a lo que BrowseComp, GAIA y otros benchmarks "difíciles" reclamaban en el lanzamiento. Tareas de estilo analista financiero como presentaciones regulatorias y transcripciones de ganancias son bien adecuadas a los modos de error actuales pero se saturarán una vez que los modelos confiablemente encadenen derivaciones multi-paso. El registro de procedencia de cuatro niveles de divulgación de hecho compra más margen que evaluaciones de respuesta única, porque un modelo debe atribuir cada paso correctamente.

Para pilas de investigación profunda en producción, el fallo de calibración es la señal más accionable: los agentes deben aprender a abstenerse cuando la evidencia está ausente en lugar de confabular una respuesta que suena precisa. Los equipos que usan agentes de investigación profunda para flujos de trabajo financieros o de conformidad deben instrumentar específicamente la tasa de abstención, no solo la precisión de respuesta final, antes de confiar en los outputs.

Sources

DeepWeb-Bench evaluates nine frontier models on tasks demanding massive cross-source evidence assembly and long-horizon multi-step derivation
"We evaluate DeepWeb-Bench on nine frontier models, including Codex CLI (the Codex command-line interface) + GPT-5.5 and eight models hosted through Claude Code CLI"
arxiv.org ↗
Retrieval failures account for only 12–14% of errors; derivation and calibration failures account for over 70%
"retrieval failures account for only 12–14% of errors while derivation and calibration failures account for over 70%"
arxiv.org ↗
Strong models' errors are dominated by incomplete derivation; weak models' by hallucinated precision
"strong models' errors dominated by incomplete derivation and weak models' by hallucinated precision"
arxiv.org ↗
Cross-model agreement is only ρ = 0.61 with per-case disagreement reaching 18.8 percentage points
"models exhibit genuine specialization across domains, with cross-model agreement of only ρ=0.61 and per-case disagreement reaching 18.8 percentage points"
arxiv.org ↗
Each task requires massive evidence collection, cross-source reconciliation, and long-horizon multi-step derivation — operationalized as four capability families: Retrieval, Derivation, Reasoning, and Calibration
"We represent these three sources of difficulty as four capability families (Retrieval, Derivation, Reasoning, and Calibration) and report results sliced by family."
arxiv.org ↗
Every reference answer is accompanied by a source-provenance record with four disclosure levels and cross-source checks where available
"Every reference answer is accompanied by a source-provenance record with four disclosure levels and cross-source checks where available, making scores easier to audit against the underlying evidence."
arxiv.org ↗
The public benchmark release includes data, rubrics, and evaluation code
"The public benchmark release includes the data, rubrics, and evaluation code."
arxiv.org ↗
Frontier deep research products score highly on existing benchmarks, producing insufficient discriminative headroom
"Frontier deep research products score high on existing benchmarks, making it difficult to distinguish their capabilities from current evaluation data alone."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Investigadores de Peking divulgan DeepWeb-Bench, exponiendo fallos de derivación en IA de frontera

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.