Vector Policy Optimization supera GRPO em amostragem diversa

Uma equipe do MIT, Improbable AI Lab, MIT-IBM Computing Research Lab e Sakana AI publicou Vector Policy Optimization (VPO) em 21 de maio — um algoritmo de treinamento que substitui o estimador de recompensa escalar do GRPO por um de valor vetorial, produzindo distribuições de resposta diversas que a busca em árvore em tempo de inferência requer. No LiveCodeBench, um Qwen2.5-Coder-7B-Instruct treinado com VPO supera um checkpoint GRPO com computação equivalente tanto em pass@k quanto em best@k. Dentro do loop de busca evolucionária OpenEvolve, ele resolve problemas que GRPO não consegue resolver em nenhum orçamento de candidatos.

A incompatibilidade estrutural: pós-treinamento padrão com GRPO otimiza uma única recompensa escalar, levando a política a uma distribuição de resposta estreita e de alta probabilidade. Baixa entropia funciona bem para decodificação gulosa. Torna-se uma desvantagem quando um sistema envolve o modelo em busca — amostragem por rejeição, busca em feixe, operadores evolucionários — que dependem de amostrar candidatos diversos e não redundantes. Após treinamento com GRPO, rollouts adicionais tornam-se quase duplicatas. O procedimento de busca ganha quase nada de um orçamento de amostra maior.

VPO trata recompensas como de valor vetorial em vez de escalar. Em geração de código, cada caso de teste é sua própria dimensão de recompensa. Em RLHF, cada modelo de recompensa ou persona de usuário é uma dimensão. VPO combina geração de múltiplas respostas com escalarizações de recompensa estocásticas, treinando o modelo para produzir conjuntos de soluções que abrangem a fronteira de Pareto do espaço de recompensa vetorial em vez de convergir em um único ponto. O mecanismo é uma substituição direta do estimador de vantagem GRPO — nenhuma mudança arquitetônica necessária.

A avaliação cobriu quatro tipos de tarefa: resposta a perguntas multihop, raciocínio lógico, navegação, uso de ferramenta e geração de código (LiveCodeBench). VPO correspondeu ou superou os baselines de RL escalar mais fortes em best@k em tempo de teste em todas as quatro. A lacuna de desempenho aumentou conforme o orçamento de candidatos cresceu — mais computação de inferência amplificou a vantagem de diversidade do VPO. O resultado de busca evolucionária foi marcante: modelos treinados com VPO resolveram problemas via OpenEvolve que modelos treinados com GRPO falharam em resolver independentemente do número de candidatos.

As lacunas: nenhum número de implantação em produção é divulgado. O artigo não relata nem horas de GPU de treinamento, tempo de parede, custo por execução, nem latência de inferência. O único modelo testado em escala é Qwen2.5-Coder-7B-Instruct. Generalização para modelos maiores (30B+), destinos de destilação de modelo fechado ou domínios não relacionados a código permanece não estudada. A decomposição de recompensa vetorial requer engenharia de recompensa específica da tarefa — sinais por caso de teste são naturais em código, mas construir vetores de recompensa significativos para geração aberta ou diálogo multi-turno é não trivial. Como VPO interage com penalidades de KL e o risco de exploração de recompensa no espaço vetorial não são analisados.

Para equipes já executando pós-treinamento baseado em GRPO, o caminho de integração é de baixo atrito: troque o estimador de vantagem, defina seu vetor de recompensa (casos de teste, critérios de rubrica, personas) e treine. O levantamento mais difícil é do lado da inferência — VPO só compensa se sua implantação executar um procedimento de busca com k > 1 rollouts. Serviço guloso ou temperatura=0 não ganha nada do treinamento em tempo de diversidade. VPO é um redesign de sinal de treinamento para sistemas onde escalonamento de computação em tempo de teste já faz parte da stack.

Se você está construindo pipelines estilo AlphaEvolve ou otimizados para pass@k e pós-treinamento com GRPO, substitua o estimador de vantagem por VPO antes do seu próximo treinamento. O dividendo de diversidade composto a cada unidade de computação de inferência que você adiciona.

Sources

VPO is a drop-in replacement for the GRPO advantage estimator that trains LLMs to produce diverse solutions across a vector reward space
"VPO is essentially a drop-in replacement for the GRPO advantage estimator, but it trains the LLM to output a set of solutions where individual solutions specialize to different trade-offs in the vector reward space."
arxiv.org ↗
GRPO post-training leads to low-entropy response distributions that hurt inference-time search
"the standard paradigm of LLM post-training optimizes a pre-specified scalar reward, often leading current LLMs to produce low-entropy response distributions and thus to struggle at displaying the diversity that inference-time search will require."
arxiv.org ↗
VPO-trained Qwen2.5-Coder-7B-Instruct improves pass@k and best@k over a matched-compute GRPO checkpoint on LiveCodeBench
"on LiveCodeBench, a VPO-trained Qwen2.5-Coder-7B-Instruct improves both pass@k and best@k over a matched-compute GRPO checkpoint"
arxiv.org ↗
In evolutionary search (OpenEvolve), VPO unlocks problems that GRPO models cannot solve at any candidate budget
"inside the OpenEvolve search loop unlocks problems that GRPO models cannot solve at any candidate budget"
arxiv.org ↗
VPO uses multi-answer generation combined with stochastic reward scalarizations to cover the Pareto frontier of the vector reward space
"VPO combines multi-answer generation with stochastic reward scalarizations, training the model to produce sets of candidates that span the Pareto frontier rather than collapsing onto a single point."
arxiv.org ↗
VPO evaluated across four tasks: multi-hop QA, logic reasoning, navigation, tool use, and coding; matches or beats scalar RL baselines with gap widening at larger search budgets
"Across four tasks, VPO matches or beats the strongest scalar RL baselines on test-time search (e.g. pass@k and best@k), with the gap widening as the search budget grows."
arxiv.org ↗
After GRPO training, additional rollout samples become near-duplicates, limiting test-time search benefit
"After training, the diversity required for effective test-time search disappears, as additional samples become near-duplicates"
arxiv.org ↗
Authors from MIT, Improbable AI Lab, MIT-IBM Computing Research Lab, and Sakana AI
"Ryan Bahlous-Boldi1,2 Isha Puri1 Idan Shenfeld1,2 Akarsh Kumar1 Mehul Damani1 Sebastian Risi4 Omar Khattab1 Zhang-Wei Hong1,2,3 Pulkit Agrawal1,2 1MIT 2Improbable AI Lab 3MIT-IBM Computing Research Lab 4Sakana AI"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Vector Policy Optimization supera GRPO em amostragem diversa

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.