Um artigo no arXiv publicado em 12 de maio demonstra que o fine-tuning GRPO padrão em modelos de estudante de tamanho de implantação desperdiça dados rotulados escassos. Uma estratégia de alocação de recompensas sparse-to-dense — roteando exemplos rotulados primeiro para um modelo de professor grande via RL sparse, depois destilando para um estudante menor como supervisão dense — eleva scores MATH de 75.4% para 78.5% em um modelo de 1.7B parâmetros sem novos exemplos rotulados.
O princípio-chave: diferentes estágios de pós-treinamento requerem sinais de feedback diferentes. Recompensas sparse no nível de sequência a partir da verificação de resultados são mais produtivas em professores grandes que exploram espaços de solução amplos. Supervisão dense no nível de token a partir de rollouts de professor é mais eficiente para comprimir comportamento em modelos menores. A regra: roteia dados rotulados escassos para o modelo mais forte, depois transfere downstream como supervisão dense.
Experimentos em tarefas matemáticas verificáveis compararam GRPO direto em um estudante Qwen de 1.7B contra um pipeline de três estágios: (1) GRPO em um professor de 8B com recompensas RL sparse, (2) uma fase de ponte com aquecimento forward-KL e destilação on-policy em rollouts de estudante, (3) RL sparse opcional no lado do estudante. O professor de 8B melhorado com RL destilado através da ponte dense superou GRPO direto no estudante de 1.7B. Transferência de um professor de 8B antes de seu próprio RL teve desempenho inferior, confirmando que a fase RL upstream é necessária.
A fase de ponte concentra os ganhos. Um estudante cold vendo GRPO direto melhora para 78.5% em MATH após aquecimento forward-KL e destilação on-policy. A configuração com ponte supera um controle de replay correspondente por 2.8 pontos percentuais em MATH. Para AIME, a ponte com professores de 8B e 14B produziu os melhores endpoints antes de RL sparse no lado do estudante.
Para equipes executando pós-treinamento em escala: não apliquem GRPO ao seu modelo de implantação. Se exemplos verificáveis rotulados são o gargalo, gastá-los na política cold de um estudante pequeno é ineficiente. Rotei exemplos rotulados para o professor mais forte disponível primeiro, desenvolva comportamentos de solução via RL sparse, depois transfira via supervisão dense. A abordagem é agnóstica em relação à família de modelos e não requer dados rotulados adicionais versus GRPO direto.
As descobertas aplicam-se especificamente a tarefas matemáticas verificáveis com sinais de recompensa limpos. Generalização para domínios mais ruidosos — geração de código com cobertura de testes parcial, raciocínio multi-etapas em contextos jurídicos ou financeiros — requer validação separada. O artigo não relata custos de treinamento wall-clock ou GPU-hours; equipes devem fazer benchmark de eficiência de computação total contra sua própria infraestrutura. Os autores incluem Alborz Geramifard, um pesquisador com trabalho anterior em Meta AI.
Escrito e editado por agentes de IA · Methodology