Aprendizado Sparse-to-Dense Eleva Scores MATH para 78.5% em Modelos Pequenos

Novas pesquisas mostram que dados de treinamento verificáveis devem ser divididos estrategicamente: recompensas sparse no nível de sequência para modelos exploratórios, recompensas dense no nível de token para destilação de estudante. Isso otimiza a eficiência do pós-treinamento quando exemplos rotulados são o gargalo.

Um artigo no arXiv publicado em 12 de maio demonstra que o fine-tuning GRPO padrão em modelos de estudante de tamanho de implantação desperdiça dados rotulados escassos. Uma estratégia de alocação de recompensas sparse-to-dense — roteando exemplos rotulados primeiro para um modelo de professor grande via RL sparse, depois destilando para um estudante menor como supervisão dense — eleva scores MATH de 75.4% para 78.5% em um modelo de 1.7B parâmetros sem novos exemplos rotulados.

O princípio-chave: diferentes estágios de pós-treinamento requerem sinais de feedback diferentes. Recompensas sparse no nível de sequência a partir da verificação de resultados são mais produtivas em professores grandes que exploram espaços de solução amplos. Supervisão dense no nível de token a partir de rollouts de professor é mais eficiente para comprimir comportamento em modelos menores. A regra: roteia dados rotulados escassos para o modelo mais forte, depois transfere downstream como supervisão dense.

Experimentos em tarefas matemáticas verificáveis compararam GRPO direto em um estudante Qwen de 1.7B contra um pipeline de três estágios: (1) GRPO em um professor de 8B com recompensas RL sparse, (2) uma fase de ponte com aquecimento forward-KL e destilação on-policy em rollouts de estudante, (3) RL sparse opcional no lado do estudante. O professor de 8B melhorado com RL destilado através da ponte dense superou GRPO direto no estudante de 1.7B. Transferência de um professor de 8B antes de seu próprio RL teve desempenho inferior, confirmando que a fase RL upstream é necessária.

A fase de ponte concentra os ganhos. Um estudante cold vendo GRPO direto melhora para 78.5% em MATH após aquecimento forward-KL e destilação on-policy. A configuração com ponte supera um controle de replay correspondente por 2.8 pontos percentuais em MATH. Para AIME, a ponte com professores de 8B e 14B produziu os melhores endpoints antes de RL sparse no lado do estudante.

Para equipes executando pós-treinamento em escala: não apliquem GRPO ao seu modelo de implantação. Se exemplos verificáveis rotulados são o gargalo, gastá-los na política cold de um estudante pequeno é ineficiente. Rotei exemplos rotulados para o professor mais forte disponível primeiro, desenvolva comportamentos de solução via RL sparse, depois transfira via supervisão dense. A abordagem é agnóstica em relação à família de modelos e não requer dados rotulados adicionais versus GRPO direto.

As descobertas aplicam-se especificamente a tarefas matemáticas verificáveis com sinais de recompensa limpos. Generalização para domínios mais ruidosos — geração de código com cobertura de testes parcial, raciocínio multi-etapas em contextos jurídicos ou financeiros — requer validação separada. O artigo não relata custos de treinamento wall-clock ou GPU-hours; equipes devem fazer benchmark de eficiência de computação total contra sua própria infraestrutura. Os autores incluem Alborz Geramifard, um pesquisador com trabalho anterior em Meta AI.

Sources

Bridge phase lifts MATH benchmark from 75.4% to 78.5% on Qwen3-1.7B student
"GRPO that is weak on a cold student lifts MATH from 75.4% to 78.5% after the bridge"
arxiv.org ↗
Bridged configuration outperforms matched replay control by 2.8 percentage points on MATH
"outperforms a matched replay control by 2.8 points"
arxiv.org ↗
RL-improved 8B teacher distilled through dense bridge outperforms direct GRPO on same 1.7B student
"an RL-improved 8B teacher distilled through the dense bridge outperforms direct GRPO on the same student"
arxiv.org ↗
Transfer from 8B teacher before its own RL underperforms
"transfer from the same teacher before RL underperforms"
arxiv.org ↗
Forward-KL warmup on teacher rollouts followed by OPD on student rollouts is consistently strongest on MATH before Stage 3
"a forward-KL warmup on teacher rollouts followed by OPD on student rollouts is consistently strongest on MATH before any post-bridge student-side sparse RL"
arxiv.org ↗
Reward-density principle: sparse sequence-level reward for exploratory models, dense token-level reward for student compression
"sparse sequence-level reward should train models where exploration is productive, while dense token-level teacher reward should be used where the aim is to compress behavior into a smaller model"
arxiv.org ↗
Paper evaluated on verifiable math with Qwen3 and Llama model families
"We evaluate this rule on verifiable math with Qwen3 and Llama models"
arxiv.org ↗
Paper published May 12, 2026, by Yuanda Xu et al. including Alborz Geramifard
"AUTHORS: Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang, Alborz Geramifard"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Aprendizado Sparse-to-Dense Eleva Scores MATH para 78.5% em Modelos Pequenos

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.