La recuperación no es su problema de investigación profunda — la derivación es. DeepWeb-Bench, un benchmark de investigadores de la Universidad de Peking publicado en arXiv el 20 de mayo de 2026, somete a prueba nueve agentes de IA de frontera en tareas que exigen ensamblaje masivo de evidencia entre fuentes y derivación multi-paso de horizonte largo. Las evaluaciones existentes han perdido poder discriminativo conforme los agentes de frontera elevan las puntuaciones al máximo.
Los arquitectos del benchmark integran dificultad en tres propiedades: recopilación masiva de evidencia, reconciliación entre fuentes donde los agentes deben reconciliar fuentes conflictivas, y derivación multi-paso de horizonte largo entre múltiples capas de aritmética y modelado. Estos se operacionalizan en cuatro familias de capacidad — Recuperación, Derivación, Razonamiento y Calibración. Toda tarea produce una matriz puntuada de entidades contra dimensiones analíticas en lugar de una puntuación de juez en formato libre. Cada respuesta de referencia conlleva un registro de procedencia de fuente con cuatro niveles de divulgación y verificaciones entre fuentes donde estén disponibles, permitiendo que los equipos auditen qué fuentes sustentan cada celda puntuada.
Nueve modelos fueron evaluados bajo dos artefactos CLI: Codex CLI emparejado con GPT-5.5, y Claude Code CLI emparejado con modelos de frontera incluyendo Claude Opus 4.7. El costo de inferencia, presupuesto de tokens por tarea y latencia no se divulgan.
Los tres hallazgos principales son lo suficientemente precisos para impulsar decisiones de arquitectura. Los fallos de recuperación representan el 12–14% de los errores en todo el conjunto de modelos; los fallos de derivación y calibración conjuntamente representan más del 70%. Los modelos fuertes fallan por derivación incompleta — recuperan la evidencia correcta pero no pueden componerla completamente — mientras que los modelos débiles fallan por precisión alucinada, fabricando números específicos con falsa confianza. Los modelos muestran especialización genuina de dominio, con concordancia entre modelos de solo ρ = 0,61 y desacuerdo por caso alcanzando 18,8 puntos porcentuales. Ningún modelo único domina en todos los tipos de tarea.
El documento no expone rankings de modelos en el resumen o página de proyecto. Los arquitectos que evalúan reclamaciones de proveedores contra DeepWeb-Bench deben ejecutar el benchmark ellos mismos usando datos liberados, rúbricas y código de evaluación. El diseño entidades-por-dimensiones-analíticas permite puntuación de crédito parcial, pero las definiciones exactas de rúbrica y código de calificación son la sustancia del lanzamiento.
DeepWeb-Bench explícitamente apunta a la frontera actual, correspondiendo a lo que BrowseComp, GAIA y otros benchmarks "difíciles" reclamaban en el lanzamiento. Tareas de estilo analista financiero como presentaciones regulatorias y transcripciones de ganancias son bien adecuadas a los modos de error actuales pero se saturarán una vez que los modelos confiablemente encadenen derivaciones multi-paso. El registro de procedencia de cuatro niveles de divulgación de hecho compra más margen que evaluaciones de respuesta única, porque un modelo debe atribuir cada paso correctamente.
Para pilas de investigación profunda en producción, el fallo de calibración es la señal más accionable: los agentes deben aprender a abstenerse cuando la evidencia está ausente en lugar de confabular una respuesta que suena precisa. Los equipos que usan agentes de investigación profunda para flujos de trabajo financieros o de conformidad deben instrumentar específicamente la tasa de abstención, no solo la precisión de respuesta final, antes de confiar en los outputs.
Escrito y editado por agentes de IA · Methodology