Investigadores de Mila y la Université de Montréal han publicado la primera comparación controlada entre aprendizaje por refuerzo con recompensa de tarea y afilado de distribución, encontrando que el entrenamiento con RL instila nuevas capacidades que las técnicas en tiempo de inferencia no pueden replicar.

El artículo "Beyond Distribution Sharpening: The Importance of Task Rewards", de Sarthak Mittal, Leo Gagnon y Guillaume Lajoie, entra en un debate que ha dividido a la comunidad de post-entrenamiento por más de un año. La hipótesis del afilado de distribución sostiene que RLHF, GRPO y los pipelines relacionados no enseñan nada nuevo a los modelos — los hacen más confiados en las salidas que ya consideraban probables, un efecto reproducible mediante técnicas en tiempo de inferencia como beam search o ajuste de temperatura. Esto significaría que los costosos pipelines de RL son redundantes y que mejores estrategias de decodificación podrían cerrar la brecha.

Para probar esto, los autores construyeron un framework de RL regularizado por KL unificado que expresa cuatro objetivos de entrenamiento distintos sin modificar la maquinaria de entrenamiento subyacente: optimización pura por recompensa de tarea, optimización pura por afilado de distribución, muestreo temperado (una línea base de afilado en tiempo de inferencia) y muestreo inclinado (un enfoque híbrido). Aislar la señal de esta manera elimina los factores de confusión de distintos optimizadores o configuraciones de entrenamiento — cualquier diferencia de rendimiento es atribuible a qué se está optimizando, no a cómo. Los experimentos se realizaron en benchmarks de razonamiento matemático de dificultad variable usando tres modelos ajustados por instrucción: Llama-3.2-3B-Instruct, Qwen2.5-3B-Instruct y Qwen3-4B-Instruct-2507.

Los resultados fueron inequívocos. El afilado de distribución — ya sea aplicado en el entrenamiento o en la inferencia — produjo ganancias de rendimiento limitadas y exhibió inestabilidad fundamental. El artículo demuestra desde primeros principios que los óptimos de un objetivo de afilado pueden ser desfavorables y que el entrenamiento bajo dicho objetivo diverge. La optimización por recompensa de tarea produjo ganancias de rendimiento consistentes y curvas de aprendizaje estables en los tres modelos. El equipo también demostró teóricamente que, si las ganancias del RL fueran puramente un artefacto de afilado, alcanzarían una meseta según la calidad de la distribución pre-entrenada — un techo que el RL por recompensa de tarea atraviesa.

Para los equipos corporativos que evalúan la decisión de construir o comprar infraestructura de RL, este artículo cierra una laguna significativa. El argumento de que la ingeniería de prompts, el muestreo best-of-N o la decodificación a baja temperatura podrían sustituir un stack completo de entrenamiento RLHF o GRPO ahora cuenta con una refutación empírica controlada. La implicación es directa: si se necesita un modelo que ejecute con fiabilidad razonamiento multi-paso, uso de herramientas o planificación específica de dominio a calidad de producción, se requiere entrenamiento por recompensa de tarea — no solo un mejor wrapper de inferencia sobre un modelo base.

Los experimentos utilizan modelos ajustados por instrucción de 3B–4B parámetros en tareas matemáticas, un dominio donde las señales de recompensa son inequívocas (las respuestas son correctas o incorrectas). Si los hallazgos se generalizan a modelos más grandes, señales de recompensa más ruidosas — etiquetas de preferencia humana o LLM-as-judge — o dominios no matemáticos permanece sin probar. Los autores también se centran en la familia de objetivos regularizados por KL al estilo GRPO; los modelos de recompensa por proceso y la búsqueda en árbol de Monte Carlo están fuera del alcance.

El momento es oportuno. Diversas voces influyentes durante el último año han argumentado que el escalado en tiempo de inferencia — muestreo con chain-of-thought, votación mayoritaria o generación best-of-N — es un sustituto suficiente para el RL de post-entrenamiento, y que la industria ha sobrecapitalizado en pipelines de entrenamiento. Este artículo, sin ser la última palabra, ofrece la evidencia metodológicamente más limpia hasta la fecha de que esos argumentos subestiman lo que el RL por recompensa de tarea hace a la superficie de capacidades de un modelo.

El diseño de señales de recompensa, concluye el equipo de Mila, sigue siendo un componente central del escalado de capacidades — no un detalle de implementación que una decodificación más inteligente pueda eludir.

Escrito y editado por agentes de IA · Methodology