Artículo del Mila Demuestra que las Recompensas de Tareas en RL Enseñan Nuevas Habilidades, No Solo Afinan Modelos

Un artículo del Mila y la Université de Montréal, publicado el 17 de abril, resuelve un debate central en la investigación aplicada de LLM: el aprendizaje por refuerzo con recompensas basadas en tareas enseña nuevas habilidades a los modelos — no se limita a concentrar la masa de probabilidad en salidas que el modelo ya favorecía. El hallazgo tiene consecuencias directas sobre cómo los equipos de IA presupuestan el cómputo de post-entrenamiento y diseñan pipelines de recompensa.

El debate gira en torno a la "hipótesis de afinado de distribución", que sostiene que el ajuste fino por RL funciona haciendo que el modelo sea más confiante en sus preferencias existentes, en lugar de expandir su superficie de capacidad. Sus defensores señalan evidencia de que los procedimientos en tiempo de inferencia — que no requieren entrenamiento alguno — pueden recuperar un desempeño sólido en benchmarks de razonamiento al concentrar la probabilidad en salidas de alta verosimilitud. Si esto fuera cierto, la implicación es que el entrenamiento por RL es una redundancia costosa: una mejor calibración o una decodificación más inteligente serían suficientes.

Los investigadores Sarthak Mittal, Leo Gagnon y Guillaume Lajoie sometieron esa hipótesis a pruebas rigurosas usando un framework unificado. Utilizaron el objetivo estándar de RL con regularización por KL — que equilibra un término de maximización de recompensa contra una penalidad de divergencia KL respecto a una distribución de referencia — y variaron la contribución de cada componente para aislar cuatro regímenes de entrenamiento: optimización pura de recompensa de tarea, optimización de afinado de distribución (donde la "recompensa" es simplemente la log-probabilidad bajo el modelo base), y dos variantes híbridas llamadas Tilted Sampling y Tempered Sampling. Dado que los cuatro métodos comparten el mismo procedimiento de entrenamiento subyacente, las diferencias observadas reflejan la señal que se está optimizando, no artefactos del cambio de framework.

El veredicto contra el afinado de distribución es tanto teórico como empírico. El artículo demuestra desde primeros principios que los óptimos de los objetivos de afinado puro son desfavorables y que la optimización es inestable. Experimentos con Llama-3.2-3B-Instruct, Qwen2.5-3B-Instruct y Qwen3-4B-Instruct en conjuntos de datos de razonamiento matemático confirman la teoría: el afinado aislado produce ganancias limitadas, mientras que incorporar señales de recompensa basadas en tareas produce mejoras de desempeño estables en las tres familias de modelos.

Para los equipos de IA empresariales, la implicación arquitectónica es inequívoca: el diseño de funciones de recompensa no es una preocupación secundaria que pueda postergarse o aproximarse. Si las ganancias de post-entrenamiento escalaran principalmente desde el afinado, las organizaciones podrían haber reemplazado los pipelines de RL por escalado en tiempo de inferencia más económico — muestreo best-of-N, estrategias de decodificación especulativa o barridos de temperatura. Este artículo cierra esa salida. La calidad de la señal de recompensa de tarea es un insumo de primer orden para el aumento de capacidad, no un detalle que pueda tomarse prestado de trabajos adyacentes.

Los resultados también reencuadran cómo interpretar los saltos de evaluación tras el ajuste fino por RL. Los equipos que atribuyeron las mejoras de los modelos a un mejor formato de salida o a una mayor confianza en patrones de razonamiento existentes quizás deban revisar esas atribuciones. El framework del artículo proporciona un diagnóstico controlado — ejecutar un baseline de afinado puro frente a una ejecución con recompensa de tarea en la misma arquitectura y conjunto de datos produce una separación clara de los dos efectos.

Las limitaciones persisten. Los experimentos se centran en razonamiento matemático, un dominio con recompensas binarias baratas y verificables. Las tareas donde la señal de recompensa es ruidosa, diferida o requiere modelado de preferencia humana — agentes de codificación, uso de herramientas en múltiples pasos, generación abierta — pueden producir distintos trade-offs. Si el hallazgo de inestabilidad para el afinado puro se generaliza a recuentos de parámetros mayores y horizontes de entrenamiento más largos aún no ha sido demostrado. Esos son los experimentos correctos que deben realizarse a continuación.

El veredicto central es directo: las recompensas de tareas están haciendo un trabajo real. La ingeniería de recompensas merece el mismo rigor que la selección de arquitectura.

Sources

Distribution sharpening optimization is fundamentally unstable and its optima are inherently unfavorable
"Our analysis reveals the inherent limitations of distribution sharpening, demonstrating from first principles how and why the optima can be unfavorable and the approach fundamentally unstable."
arxiv.org ↗
Sharpening alone yields limited gains while task-based rewards produce robust improvements and stable learning
"our experiments using Llama-3.2-3B-Instruct, Qwen2.5-3B-Instruct and Qwen3-4B-Instruct-2507 on math datasets confirm that sharpening yields limited gains, whereas incorporating task-based reward signal can greatly help achieve robust performance improvements and stable learning."
arxiv.org ↗
The paper compares four regimes — Task-Reward Optimization, Tilted Sampling, Distribution Sharpening Optimization, and Tempered Sampling — all within the same RL training framework
"we leverage the standard KL-regularized RL framework used for LLM fine-tuning, which combines a reward maximization objective with a KL divergence term against a target distribution. By varying the contribution of each term, we can express a spectrum of objectives within the exact same training procedure"
arxiv.org ↗
The distribution sharpening hypothesis holds that RL post-training primarily concentrates probability mass on existing high-likelihood outputs rather than introducing new behaviors
"this view holds that post-training primarily makes the model more confident in its existing preferences – it reduces uncertainty and concentrates probability mass on outputs that the model already considers plausible, rather than introducing fundamentally new behaviors."
arxiv.org ↗
Authors Sarthak Mittal, Leo Gagnon, and Guillaume Lajoie are affiliated with Mila and Université de Montréal
"Sarthak Mittal 1,2, Leo Gagnon1,2, Guillaume Lajoie1,2 1Mila 2Université de Montréal"
arxiv.org ↗
Inference-time training-free procedures that concentrate probability on high-likelihood trajectories can recover strong reasoning performance, cited as support for the sharpening hypothesis
"this hypothesis is supported by recent results showing that inference-time (i.e. training-free) procedures which concentrate probability mass on high-likelihood trajectories can recover strong performance on reasoning tasks"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology