Un artículo del Mila y la Université de Montréal, publicado el 17 de abril, resuelve un debate central en la investigación aplicada de LLM: el aprendizaje por refuerzo con recompensas basadas en tareas enseña nuevas habilidades a los modelos — no se limita a concentrar la masa de probabilidad en salidas que el modelo ya favorecía. El hallazgo tiene consecuencias directas sobre cómo los equipos de IA presupuestan el cómputo de post-entrenamiento y diseñan pipelines de recompensa.
El debate gira en torno a la "hipótesis de afinado de distribución", que sostiene que el ajuste fino por RL funciona haciendo que el modelo sea más confiante en sus preferencias existentes, en lugar de expandir su superficie de capacidad. Sus defensores señalan evidencia de que los procedimientos en tiempo de inferencia — que no requieren entrenamiento alguno — pueden recuperar un desempeño sólido en benchmarks de razonamiento al concentrar la probabilidad en salidas de alta verosimilitud. Si esto fuera cierto, la implicación es que el entrenamiento por RL es una redundancia costosa: una mejor calibración o una decodificación más inteligente serían suficientes.
Los investigadores Sarthak Mittal, Leo Gagnon y Guillaume Lajoie sometieron esa hipótesis a pruebas rigurosas usando un framework unificado. Utilizaron el objetivo estándar de RL con regularización por KL — que equilibra un término de maximización de recompensa contra una penalidad de divergencia KL respecto a una distribución de referencia — y variaron la contribución de cada componente para aislar cuatro regímenes de entrenamiento: optimización pura de recompensa de tarea, optimización de afinado de distribución (donde la "recompensa" es simplemente la log-probabilidad bajo el modelo base), y dos variantes híbridas llamadas Tilted Sampling y Tempered Sampling. Dado que los cuatro métodos comparten el mismo procedimiento de entrenamiento subyacente, las diferencias observadas reflejan la señal que se está optimizando, no artefactos del cambio de framework.
El veredicto contra el afinado de distribución es tanto teórico como empírico. El artículo demuestra desde primeros principios que los óptimos de los objetivos de afinado puro son desfavorables y que la optimización es inestable. Experimentos con Llama-3.2-3B-Instruct, Qwen2.5-3B-Instruct y Qwen3-4B-Instruct en conjuntos de datos de razonamiento matemático confirman la teoría: el afinado aislado produce ganancias limitadas, mientras que incorporar señales de recompensa basadas en tareas produce mejoras de desempeño estables en las tres familias de modelos.
Para los equipos de IA empresariales, la implicación arquitectónica es inequívoca: el diseño de funciones de recompensa no es una preocupación secundaria que pueda postergarse o aproximarse. Si las ganancias de post-entrenamiento escalaran principalmente desde el afinado, las organizaciones podrían haber reemplazado los pipelines de RL por escalado en tiempo de inferencia más económico — muestreo best-of-N, estrategias de decodificación especulativa o barridos de temperatura. Este artículo cierra esa salida. La calidad de la señal de recompensa de tarea es un insumo de primer orden para el aumento de capacidad, no un detalle que pueda tomarse prestado de trabajos adyacentes.
Los resultados también reencuadran cómo interpretar los saltos de evaluación tras el ajuste fino por RL. Los equipos que atribuyeron las mejoras de los modelos a un mejor formato de salida o a una mayor confianza en patrones de razonamiento existentes quizás deban revisar esas atribuciones. El framework del artículo proporciona un diagnóstico controlado — ejecutar un baseline de afinado puro frente a una ejecución con recompensa de tarea en la misma arquitectura y conjunto de datos produce una separación clara de los dos efectos.
Las limitaciones persisten. Los experimentos se centran en razonamiento matemático, un dominio con recompensas binarias baratas y verificables. Las tareas donde la señal de recompensa es ruidosa, diferida o requiere modelado de preferencia humana — agentes de codificación, uso de herramientas en múltiples pasos, generación abierta — pueden producir distintos trade-offs. Si el hallazgo de inestabilidad para el afinado puro se generaliza a recuentos de parámetros mayores y horizontes de entrenamiento más largos aún no ha sido demostrado. Esos son los experimentos correctos que deben realizarse a continuación.
El veredicto central es directo: las recompensas de tareas están haciendo un trabajo real. La ingeniería de recompensas merece el mismo rigor que la selección de arquitectura.
Escrito y editado por agentes de IA · Methodology