Corrección de Regex Estricta Aumenta Recuperación de Calificación de Agentes en 60 Puntos Porcentuales

Los calificadores automatizados para sistemas agénticos fallan donde los evaluadores de LLM de un solo turno no fallan. Una nueva investigación de Columbia Statistics identifica exactamente dónde se filtra la señal. Un artículo titulado "Grading the Grader" (Zheng y Hsu, junio de 2026) ejecutó LAMBDA—un sistema dual-agente de análisis de datos de código abierto—contra 153 tareas numéricas QRData en el benchmark DSGym. Los investigadores sometieron a prueba tres estrategias de calificación contra etiquetas humanas y expusieron dos modos de falla que la mayoría de los pipelines de evaluación encuentran.

LAMBDA empareja un agente "programador" que escribe Python a partir de instrucciones en lenguaje natural con un agente "inspector" que detecta errores de ejecución y sugiere correcciones. El bucle se ejecuta hasta que el código tiene éxito o se alcanza un límite de reintentos. Este diseño iterativo de emisión de código rompe los calificadores estándar: la respuesta final del agente puede aparecer en una variable impresa, una cadena formateada, un registro de diagnóstico o un rastro parcial—cualquiera de los cuales una regex ingenua omitirá.

El artículo probó tres capas. Primero: coincidencia estricta de regex, un enfoque no-GenAI que extrae números por patrón. Segundo: calificación indulgente basada en LLM, que interpreta la respuesta en contexto. Tercero: inspección humana basada en fragmentos. En precisión, ambos calificadores automatizados lograron cero falsos positivos en 70 muestras validadas por humanos. La recuperación divergió drásticamente. Una heurística de último número—tome cualquier número que aparezca al final en la salida—dejó el calificador estricto muy expuesto. Reemplazarlo con un pipeline de extracción anclado por palabras clave—uno que analiza tokens adyacentes a la respuesta antes del número—aumentó la recuperación del calificador estricto en 60 puntos porcentuales. Este cambio único es el resultado más accionable en el artículo para equipos que ejecutan pipelines de primero-regex.

La recuperación del calificador LLM indulgente alcanzó el 97% contra etiquetas humanas, pero solo después de resolver un problema separado: el propio calificador no se ejecutaba. Sin intervención, solo el 36% de las invocaciones de calificación se completaron exitosamente, con una tasa de aprobación indulgente del 16%. La solución fue un mecanismo de empujón iterativo—un prompt que impulsa el LLM de calificación hacia una plantilla de respuesta estructurada. Con empujones, el éxito de la ejecución de calificación saltó al 97% y las tasas de aprobación indulgente al 46%. Reinyectar la pregunta de tarea original junto con el empujón no proporcionó beneficio adicional. El empujón funciona como una pista de formato, no como un andamio de comprensión. Los equipos que agregan contexto de pregunta para estabilizar sus jueces LLM desperdician tokens.

Tipo de variable—el tipo de datos de la respuesta esperada (integer, float, percentage, etc.)—resultó ser el campo de metadatos de tarea más consistentemente asociado con el comportamiento del pipeline de calificación y las calificaciones observadas. Supera otras características de tarea como una señal de diagnóstico. Cuando los números de evaluación se ven incorrectos, dividir por tipo de variable localizará el problema más rápidamente que dividir por dominio o longitud de tarea.

Un artículo separado (Nie et al., 2026) mostró que una porción sustancial de tareas QRData se puede resolver sin los archivos de datos reales—a través de memorización o priors estadísticos. El filtrado de atajos reveló una caída de hasta el 21% en la precisión relativa una vez que se aplicó la dependencia de datos. El desempeño del agente en esta clase de tareas probablemente esté sobrestimado en toda la junta. Los pipelines de evaluación que reportan altas tasas de aprobación pueden estar midiendo la recuperación de priors de tiempo de entrenamiento, no razonamiento genuino.

Implemente una pila de dos calificadores: regex con extracción anclada por palabras clave como un ancla de precisión, calificador LLM con empujón de plantilla como la capa de recuperación. Estratifique diagnósticos por tipo de variable. No confunda fallas de ejecución de calificación con fallas de agente hasta que haya instrumentalizado ambas rutas por separado.

Sources

LAMBDA run on 153 numerical QRData tasks from DSGym; three-layer grading cascade tested against human labels
"applying LAMBDA, a multi-agent data-analysis system, on 153 numerical QRData tasks from DSGym. We develop and evaluate a three-layer human-AI grading cascade: strict regex matching, LLM-based lenient grading, and snippet-based human inspection"
arxiv.org ↗
Both automated graders achieved 100% observed precision — 0/70 false positives
"Both automated graders achieve 100% observed precision (0/70 false positives)."
arxiv.org ↗
Lenient grader's recall is 97% against human labels
"The lenient grader's recall is 97% against human labels."
arxiv.org ↗
Keyword-anchored extraction raises strict grader recall by 60 percentage points over a last-number heuristic
"A keyword-anchored extraction pipeline raises the strict grader's recall by 60 percentage points over a last-number heuristic"
arxiv.org ↗
Iterative nudge raises grading run success from 36% to 97% and lenient-pass rates from 16% to 46%; re-injecting the original question offers no benefit
"An iterative nudge mechanism raises grading run success from 36% to 97% and lenient-pass rates from 16% to 46%; comparing nudging with and without original-question re-injection shows that re-injection offers no benefit, confirming the nudge as an answer template cue."
arxiv.org ↗
Variable type is the task metadata field most consistently associated with grading pipeline dynamics and observed outcome grades
"variable type is the task metadata field most consistently associated with grading pipeline dynamics and observed outcome grades."
arxiv.org ↗
LAMBDA is an open-source dual-agent system with a programmer and inspector role in an iterative self-correction loop
"At the core of LAMBDA are two key agent roles: the programmer and the inspector, which are engineered to work together seamlessly. Specifically, the programmer generates code based on the user's instructions and domain-specific knowledge, while the inspector debugs the code when necessary."
arxiv.org ↗
DSGym QRData tasks can be partially solved without actual data files; shortcut filtering reveals up to ~21% relative accuracy drop when data dependency is enforced
"enforcing data dependency consistently decreases accuracy across all evaluated models on the same error-cleaned QRData split (up to ~21% relative drop). Representative examples of tasks solvable without files are provided in Appendix B.3."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Corrección de Regex Estricta Aumenta Recuperación de Calificación de Agentes en 60 Puntos Porcentuales

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.