El Escalado en Tiempo de Inferencia No Reemplaza al RL por Recompensa de Tarea, Según Estudio de Mila

Investigadores de Mila y la Université de Montréal han publicado la primera comparación controlada entre aprendizaje por refuerzo con recompensa de tarea y afilado de distribución, encontrando que el entrenamiento con RL instila nuevas capacidades que las técnicas en tiempo de inferencia no pueden replicar.

El artículo "Beyond Distribution Sharpening: The Importance of Task Rewards", de Sarthak Mittal, Leo Gagnon y Guillaume Lajoie, entra en un debate que ha dividido a la comunidad de post-entrenamiento por más de un año. La hipótesis del afilado de distribución sostiene que RLHF, GRPO y los pipelines relacionados no enseñan nada nuevo a los modelos — los hacen más confiados en las salidas que ya consideraban probables, un efecto reproducible mediante técnicas en tiempo de inferencia como beam search o ajuste de temperatura. Esto significaría que los costosos pipelines de RL son redundantes y que mejores estrategias de decodificación podrían cerrar la brecha.

Para probar esto, los autores construyeron un framework de RL regularizado por KL unificado que expresa cuatro objetivos de entrenamiento distintos sin modificar la maquinaria de entrenamiento subyacente: optimización pura por recompensa de tarea, optimización pura por afilado de distribución, muestreo temperado (una línea base de afilado en tiempo de inferencia) y muestreo inclinado (un enfoque híbrido). Aislar la señal de esta manera elimina los factores de confusión de distintos optimizadores o configuraciones de entrenamiento — cualquier diferencia de rendimiento es atribuible a qué se está optimizando, no a cómo. Los experimentos se realizaron en benchmarks de razonamiento matemático de dificultad variable usando tres modelos ajustados por instrucción: Llama-3.2-3B-Instruct, Qwen2.5-3B-Instruct y Qwen3-4B-Instruct-2507.

Los resultados fueron inequívocos. El afilado de distribución — ya sea aplicado en el entrenamiento o en la inferencia — produjo ganancias de rendimiento limitadas y exhibió inestabilidad fundamental. El artículo demuestra desde primeros principios que los óptimos de un objetivo de afilado pueden ser desfavorables y que el entrenamiento bajo dicho objetivo diverge. La optimización por recompensa de tarea produjo ganancias de rendimiento consistentes y curvas de aprendizaje estables en los tres modelos. El equipo también demostró teóricamente que, si las ganancias del RL fueran puramente un artefacto de afilado, alcanzarían una meseta según la calidad de la distribución pre-entrenada — un techo que el RL por recompensa de tarea atraviesa.

Para los equipos corporativos que evalúan la decisión de construir o comprar infraestructura de RL, este artículo cierra una laguna significativa. El argumento de que la ingeniería de prompts, el muestreo best-of-N o la decodificación a baja temperatura podrían sustituir un stack completo de entrenamiento RLHF o GRPO ahora cuenta con una refutación empírica controlada. La implicación es directa: si se necesita un modelo que ejecute con fiabilidad razonamiento multi-paso, uso de herramientas o planificación específica de dominio a calidad de producción, se requiere entrenamiento por recompensa de tarea — no solo un mejor wrapper de inferencia sobre un modelo base.

Los experimentos utilizan modelos ajustados por instrucción de 3B–4B parámetros en tareas matemáticas, un dominio donde las señales de recompensa son inequívocas (las respuestas son correctas o incorrectas). Si los hallazgos se generalizan a modelos más grandes, señales de recompensa más ruidosas — etiquetas de preferencia humana o LLM-as-judge — o dominios no matemáticos permanece sin probar. Los autores también se centran en la familia de objetivos regularizados por KL al estilo GRPO; los modelos de recompensa por proceso y la búsqueda en árbol de Monte Carlo están fuera del alcance.

El momento es oportuno. Diversas voces influyentes durante el último año han argumentado que el escalado en tiempo de inferencia — muestreo con chain-of-thought, votación mayoritaria o generación best-of-N — es un sustituto suficiente para el RL de post-entrenamiento, y que la industria ha sobrecapitalizado en pipelines de entrenamiento. Este artículo, sin ser la última palabra, ofrece la evidencia metodológicamente más limpia hasta la fecha de que esos argumentos subestiman lo que el RL por recompensa de tarea hace a la superficie de capacidades de un modelo.

El diseño de señales de recompensa, concluye el equipo de Mila, sigue siendo un componente central del escalado de capacidades — no un detalle de implementación que una decodificación más inteligente pueda eludir.

Sources

Researchers at Mila and Université de Montréal published a controlled comparison of task-reward RL and distribution sharpening
"we present an explicit comparison between distribution sharpening and task-reward-based learning, utilizing RL as a tool to implement both paradigms"
arxiv.org ↗
The distribution sharpening hypothesis holds that RL pipelines merely make models more confident in already-likely outputs, reproducible by inference-time techniques
"this view holds that post-training primarily makes the model more confident in its existing preferences – it reduces uncertainty and concentrates probability mass on outputs that the model already considers plausible, rather than introducing fundamentally new behaviors"
arxiv.org ↗
The authors built a unified KL-regularized RL framework expressing four distinct objectives without changing the training machinery
"By varying the contribution of each term, we can express a spectrum of objectives within the exact same training procedure: pure task-reward optimization, distribution sharpening alone, or a combination of both"
arxiv.org ↗
Experiments were run on Llama-3.2-3B-Instruct, Qwen2.5-3B-Instruct, and Qwen3-4B-Instruct-2507 on math datasets
"our experiments using Llama-3.2-3B-Instruct, Qwen2.5-3B-Instruct and Qwen3-4B-Instruct-2507 on math datasets confirm that sharpening yields limited gains"
arxiv.org ↗
Distribution sharpening optimization is fundamentally unstable and its optima can be unfavorable, proven from first principles
"Our analysis reveals the inherent limitations of distribution sharpening, demonstrating from first principles how and why the optima can be unfavorable and the approach fundamentally unstable"
arxiv.org ↗
Task-reward optimization produced robust performance improvements and stable learning; sharpening yielded limited gains
"sharpening yields limited gains, whereas incorporating task-based reward signal can greatly help achieve robust performance improvements and stable learning"
arxiv.org ↗
If RL gains were purely a sharpening artifact, they would plateau based on the quality of the pre-trained distribution
"If the gains of RL fine-tuning arise primarily from distribution sharpening, then improvements may be achieved through better inference or confidence calibration, and would ultimately plateau based on the quality of the pre-trained distribution"
arxiv.org ↗
The design of reward signals remains a central component of capability scaling, per the paper's conclusion
"if task-reward optimization provides benefits beyond sharpening, then the design of reward signals remains a central component of capability scaling"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology