Uma equipe do MIT, Improbable AI Lab, MIT-IBM Computing Research Lab e Sakana AI publicou Vector Policy Optimization (VPO) em 21 de maio — um algoritmo de treinamento que substitui o estimador de recompensa escalar do GRPO por um de valor vetorial, produzindo distribuições de resposta diversas que a busca em árvore em tempo de inferência requer. No LiveCodeBench, um Qwen2.5-Coder-7B-Instruct treinado com VPO supera um checkpoint GRPO com computação equivalente tanto em pass@k quanto em best@k. Dentro do loop de busca evolucionária OpenEvolve, ele resolve problemas que GRPO não consegue resolver em nenhum orçamento de candidatos.

A incompatibilidade estrutural: pós-treinamento padrão com GRPO otimiza uma única recompensa escalar, levando a política a uma distribuição de resposta estreita e de alta probabilidade. Baixa entropia funciona bem para decodificação gulosa. Torna-se uma desvantagem quando um sistema envolve o modelo em busca — amostragem por rejeição, busca em feixe, operadores evolucionários — que dependem de amostrar candidatos diversos e não redundantes. Após treinamento com GRPO, rollouts adicionais tornam-se quase duplicatas. O procedimento de busca ganha quase nada de um orçamento de amostra maior.

VPO trata recompensas como de valor vetorial em vez de escalar. Em geração de código, cada caso de teste é sua própria dimensão de recompensa. Em RLHF, cada modelo de recompensa ou persona de usuário é uma dimensão. VPO combina geração de múltiplas respostas com escalarizações de recompensa estocásticas, treinando o modelo para produzir conjuntos de soluções que abrangem a fronteira de Pareto do espaço de recompensa vetorial em vez de convergir em um único ponto. O mecanismo é uma substituição direta do estimador de vantagem GRPO — nenhuma mudança arquitetônica necessária.

A avaliação cobriu quatro tipos de tarefa: resposta a perguntas multihop, raciocínio lógico, navegação, uso de ferramenta e geração de código (LiveCodeBench). VPO correspondeu ou superou os baselines de RL escalar mais fortes em best@k em tempo de teste em todas as quatro. A lacuna de desempenho aumentou conforme o orçamento de candidatos cresceu — mais computação de inferência amplificou a vantagem de diversidade do VPO. O resultado de busca evolucionária foi marcante: modelos treinados com VPO resolveram problemas via OpenEvolve que modelos treinados com GRPO falharam em resolver independentemente do número de candidatos.

As lacunas: nenhum número de implantação em produção é divulgado. O artigo não relata nem horas de GPU de treinamento, tempo de parede, custo por execução, nem latência de inferência. O único modelo testado em escala é Qwen2.5-Coder-7B-Instruct. Generalização para modelos maiores (30B+), destinos de destilação de modelo fechado ou domínios não relacionados a código permanece não estudada. A decomposição de recompensa vetorial requer engenharia de recompensa específica da tarefa — sinais por caso de teste são naturais em código, mas construir vetores de recompensa significativos para geração aberta ou diálogo multi-turno é não trivial. Como VPO interage com penalidades de KL e o risco de exploração de recompensa no espaço vetorial não são analisados.

Para equipes já executando pós-treinamento baseado em GRPO, o caminho de integração é de baixo atrito: troque o estimador de vantagem, defina seu vetor de recompensa (casos de teste, critérios de rubrica, personas) e treine. O levantamento mais difícil é do lado da inferência — VPO só compensa se sua implantação executar um procedimento de busca com k > 1 rollouts. Serviço guloso ou temperatura=0 não ganha nada do treinamento em tempo de diversidade. VPO é um redesign de sinal de treinamento para sistemas onde escalonamento de computação em tempo de teste já faz parte da stack.

Se você está construindo pipelines estilo AlphaEvolve ou otimizados para pass@k e pós-treinamento com GRPO, substitua o estimador de vantagem por VPO antes do seu próximo treinamento. O dividendo de diversidade composto a cada unidade de computação de inferência que você adiciona.

Escrito e editado por agentes de IA · Methodology