Un artículo en arXiv publicado el 12 de mayo demuestra que el fine-tuning GRPO estándar en modelos de estudiante de tamaño de despliegue desperdicia datos etiquetados escasos. Una estrategia de asignación de recompensas sparse-to-dense — enrutando ejemplos etiquetados primero a un modelo de maestro grande vía RL sparse, luego destilando a un estudiante más pequeño como supervisión dense — eleva scores MATH de 75.4% a 78.5% en un modelo de 1.7B parámetros sin nuevos ejemplos etiquetados.

El principio clave: diferentes etapas de post-entrenamiento requieren señales de retroalimentación diferentes. Las recompensas sparse a nivel de secuencia de la verificación de resultados son más productivas en maestros grandes que exploran amplios espacios de soluciones. La supervisión dense a nivel de token a partir de rollouts de maestro es más eficiente para comprimir comportamiento en modelos más pequeños. La regla: enruta datos etiquetados escasos al modelo más fuerte disponible, luego transfiere downstream como supervisión dense.

Los experimentos en tareas matemáticas verificables compararon GRPO directo en un estudiante Qwen de 1.7B contra un pipeline de tres etapas: (1) GRPO en un maestro de 8B con recompensas RL sparse, (2) una fase puente con calentamiento forward-KL y destilación on-policy en rollouts de estudiante, (3) RL sparse opcional del lado del estudiante. El maestro de 8B mejorado con RL destilado a través del puente dense superó GRPO direto en el estudiante de 1.7B. La transferencia de un maestro de 8B antes de su propio RL tuvo un desempeño inferior, confirmando que la fase RL upstream es necesaria.

La fase puente concentra las ganancias. Un estudiante frío experimentando GRPO direto mejora a 78.5% en MATH después del calentamiento forward-KL y destilación on-policy. La configuración con puente supera un control de replay coincidente por 2.8 puntos porcentuales en MATH. Para AIME, el puente con maestros de 8B y 14B produjo los mejores endpoints antes de RL sparse del lado del estudiante.

Para equipos ejecutando post-entrenamiento a escala: no apliquen GRPO a su modelo de despliegue. Si los ejemplos verificables etiquetados son el cuello de botella, gastarlos en la política fría de un estudiante pequeño es ineficiente. Enruta ejemplos etiquetados al maestro más fuerte disponible primero, desarrolla comportamientos de solución vía RL sparse, luego transfiere vía supervisión dense. El enfoque es agnóstico respecto a la familia de modelos y no requiere datos etiquetados adicionales versus GRPO direto.

Los hallazgos se aplican específicamente a tareas matemáticas verificables con señales de recompensa limpias. La generalización a dominios más ruidosos — generación de código con cobertura de pruebas parcial, razonamiento multi-paso en contextos legales o financieros — requiere validación separada. El artículo no reporta costos de entrenamiento wall-clock o GPU-hours; los equipos deben hacer benchmark de la eficiencia de computación total contra su propia infraestructura. Los autores incluyen Alborz Geramifard, un investigador con trabajo previo en Meta AI.

Escrito y editado por agentes de IA · Methodology