Los Baselines de Prompting Simple Superan los Métodos de Supervisión Compleja

Nuevo marco de evaluación para métodos de supervisión densa en agentes LLM de horizonte largo. Cuando los agentes toman cientos de acciones por episodio, las recompensas solo de resultado fallan—este trabajo compara alternativas de supervisión densa (confianza, auto-destilación, embeddings). Directamente aplicable a equipos que entrenan agentes multi-paso.

Investigadores de la Universidad de Tübingen y ETH Zurich lanzaron QVal el 30 de junio, un benchmark sin entrenamiento que califica señales de supervisión densa para agentes LLM de horizonte largo. El artículo compara 21 métodos en cuatro entornos y siete familias metodológicas, con más de 1.200 experimentos en seis backbones de modelo de peso abierto.

El problema central: cuando los agentes ejecutan trayectorias que abarcan cientos o miles de acciones, una señal de recompensa que solo se dispara al final del episodio proporciona casi ninguna orientación sobre qué acciones intermedias funcionaron. Los métodos de supervisión densa califican cada paso, pero los equipos solo podían evaluarlos ejecutando pipelines completos de entrenamiento hasta completarse. Esto confunde la calidad de supervisión con la ingeniería de entrenamiento e imposibilita la comparación entre métodos.

QVal se basa en Q-alineación. Dado un par estado-acción, ¿la puntuación de un método de supervisión clasifica correctamente las acciones como lo harían los Q-valores de una política de referencia fuerte? Los métodos bien Q-alineados reflejan lo que una política óptima considera bueno; los métodos mal alineados inyectan ruido o engañan el entrenamiento. Al basarse en Q-valores de referencia en lugar de métricas de tarea downstream, QVal aísla la calidad de supervisión de la maquinaria de entrenamiento. Todo el benchmark se ejecuta antes de que comience el entrenamiento, haciendo la iteración económica.

El hallazgo principal contradice la literatura reciente: los baselines de prompting simple—pidiendo al modelo que califique sus propios pasos intermedios—consistentemente superan los métodos complejos de supervisión densa, incluyendo enfoques de auto-destilación y similitud de embedding. Esto se mantuvo en todos los cuatro entornos, todos los seis backbones de modelo y ambas modalidades de texto y visual. El desempeño se agrupa por familia metodológica en lugar de por variante, lo que significa que los equipos pueden descartar familias completas temprano.

Para equipos que entrenan agentes multi-paso, la implicación es clara: el andamiaje alrededor de supervisión densa ha hecho más trabajo que los métodos mismos. Si un pipeline complejo de auto-destilación superara un baseline de prompting en su benchmark, la ganancia probablemente provino de la configuración de entrenamiento, no de la señal de supervisión. QVal permite a los equipos probar esto sin re-ejecutar el pipeline completo.

Una restricción: la Q-alineación es tan buena como la política de referencia. Donde no existe una política de referencia fuerte—entornos novedosos de uso de herramientas, planificación de horizonte largo sobre APIs privadas—calcular Q-valores confiables para evaluación no es trivial. Construir evaluaciones al estilo QVal en nuevos entornos requiere una política lista para usar o inversión significativa. Los equipos que trabajan en benchmarks bien definidos (navegación web, ejecución de código, juegos) se benefician inmediatamente; los equipos en entornos propietarios o escasos en datos tendrán que esperar a que la herramienta madure.

Los seis backbones de peso abierto probados no tienen nombre, pero la amplitud sugiere generalización en todo el panorama actual de modelos disponibles públicamente en lugar de especificidad para una arquitectura.

Antes de agregar un método de supervisión densa a su pipeline de agentes, ejecútelo a través de análisis de Q-alineación al estilo QVal. Si un baseline de prompting direto gana en calidad de señal, el método complejo no recuperará esa brecha durante el entrenamiento.

Sources

QVal benchmarks 21 dense supervision methods across four environments and seven methodological families, with over 1,200 evaluation experiments on six open-weight model backbones
"benchmarking 21 dense supervision methods across four diverse environments and seven methodological families, with over 1.2K evaluation experiments across six open-weight model backbones"
arxiv.org ↗
Simple prompting baselines consistently outperform recent dense supervision methods including self-distillation and embedding-similarity approaches
"simple prompting baselines consistently outperform recent dense supervision methods from the literature"
arxiv.org ↗
Performance clusters strongly by methodological family rather than by specific method variant
"performance clusters strongly by family"
arxiv.org ↗
QVal measures Q-alignment: whether a method's score orders actions according to the Q-values of a strong reference policy
"QVal measures how well a method's score is Q-aligned: whether it orders actions according to the Q-values of a strong reference-policy"
arxiv.org ↗
A single agent trajectory in long-horizon settings can contain hundreds or thousands of actions, making outcome-only rewards too sparse
"a single trajectory can contain hundreds or thousands of actions. In these settings, outcome-only rewards provide too sparse guidance"
arxiv.org ↗
QVal is training-free and designed to be extensible to new environments and methods
"QVal is designed to be easily extensible to new environments and methods, enabling researchers to iterate on dense supervision methods before any training run"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Los Baselines de Prompting Simple Superan los Métodos de Supervisión Compleja

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.