Aprendizaje Sparse-to-Dense Eleva Scores MATH a 78.5% en Modelos Pequeños

Nuevas investigaciones muestran que los datos de entrenamiento verificables deben dividirse estratégicamente: recompensas sparse a nivel de secuencia para modelos exploratorios, recompensas dense a nivel de token para destilación de estudiante. Esto optimiza la eficiencia del post-entrenamiento cuando los ejemplos etiquetados son el cuello de botella.

Un artículo en arXiv publicado el 12 de mayo demuestra que el fine-tuning GRPO estándar en modelos de estudiante de tamaño de despliegue desperdicia datos etiquetados escasos. Una estrategia de asignación de recompensas sparse-to-dense — enrutando ejemplos etiquetados primero a un modelo de maestro grande vía RL sparse, luego destilando a un estudiante más pequeño como supervisión dense — eleva scores MATH de 75.4% a 78.5% en un modelo de 1.7B parámetros sin nuevos ejemplos etiquetados.

El principio clave: diferentes etapas de post-entrenamiento requieren señales de retroalimentación diferentes. Las recompensas sparse a nivel de secuencia de la verificación de resultados son más productivas en maestros grandes que exploran amplios espacios de soluciones. La supervisión dense a nivel de token a partir de rollouts de maestro es más eficiente para comprimir comportamiento en modelos más pequeños. La regla: enruta datos etiquetados escasos al modelo más fuerte disponible, luego transfiere downstream como supervisión dense.

Los experimentos en tareas matemáticas verificables compararon GRPO directo en un estudiante Qwen de 1.7B contra un pipeline de tres etapas: (1) GRPO en un maestro de 8B con recompensas RL sparse, (2) una fase puente con calentamiento forward-KL y destilación on-policy en rollouts de estudiante, (3) RL sparse opcional del lado del estudiante. El maestro de 8B mejorado con RL destilado a través del puente dense superó GRPO direto en el estudiante de 1.7B. La transferencia de un maestro de 8B antes de su propio RL tuvo un desempeño inferior, confirmando que la fase RL upstream es necesaria.

La fase puente concentra las ganancias. Un estudiante frío experimentando GRPO direto mejora a 78.5% en MATH después del calentamiento forward-KL y destilación on-policy. La configuración con puente supera un control de replay coincidente por 2.8 puntos porcentuales en MATH. Para AIME, el puente con maestros de 8B y 14B produjo los mejores endpoints antes de RL sparse del lado del estudiante.

Para equipos ejecutando post-entrenamiento a escala: no apliquen GRPO a su modelo de despliegue. Si los ejemplos verificables etiquetados son el cuello de botella, gastarlos en la política fría de un estudiante pequeño es ineficiente. Enruta ejemplos etiquetados al maestro más fuerte disponible primero, desarrolla comportamientos de solución vía RL sparse, luego transfiere vía supervisión dense. El enfoque es agnóstico respecto a la familia de modelos y no requiere datos etiquetados adicionales versus GRPO direto.

Los hallazgos se aplican específicamente a tareas matemáticas verificables con señales de recompensa limpias. La generalización a dominios más ruidosos — generación de código con cobertura de pruebas parcial, razonamiento multi-paso en contextos legales o financieros — requiere validación separada. El artículo no reporta costos de entrenamiento wall-clock o GPU-hours; los equipos deben hacer benchmark de la eficiencia de computación total contra su propia infraestructura. Los autores incluyen Alborz Geramifard, un investigador con trabajo previo en Meta AI.

Sources

Bridge phase lifts MATH benchmark from 75.4% to 78.5% on Qwen3-1.7B student
"GRPO that is weak on a cold student lifts MATH from 75.4% to 78.5% after the bridge"
arxiv.org ↗
Bridged configuration outperforms matched replay control by 2.8 percentage points on MATH
"outperforms a matched replay control by 2.8 points"
arxiv.org ↗
RL-improved 8B teacher distilled through dense bridge outperforms direct GRPO on same 1.7B student
"an RL-improved 8B teacher distilled through the dense bridge outperforms direct GRPO on the same student"
arxiv.org ↗
Transfer from 8B teacher before its own RL underperforms
"transfer from the same teacher before RL underperforms"
arxiv.org ↗
Forward-KL warmup on teacher rollouts followed by OPD on student rollouts is consistently strongest on MATH before Stage 3
"a forward-KL warmup on teacher rollouts followed by OPD on student rollouts is consistently strongest on MATH before any post-bridge student-side sparse RL"
arxiv.org ↗
Reward-density principle: sparse sequence-level reward for exploratory models, dense token-level reward for student compression
"sparse sequence-level reward should train models where exploration is productive, while dense token-level teacher reward should be used where the aim is to compress behavior into a smaller model"
arxiv.org ↗
Paper evaluated on verifiable math with Qwen3 and Llama model families
"We evaluate this rule on verifiable math with Qwen3 and Llama models"
arxiv.org ↗
Paper published May 12, 2026, by Yuanda Xu et al. including Alborz Geramifard
"AUTHORS: Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang, Alborz Geramifard"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Aprendizaje Sparse-to-Dense Eleva Scores MATH a 78.5% en Modelos Pequeños

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.