Vector Policy Optimization supera GRPO en muestreo diverso

Un equipo de MIT, Improbable AI Lab, MIT-IBM Computing Research Lab y Sakana AI publicó Vector Policy Optimization (VPO) el 21 de mayo — un algoritmo de entrenamiento que reemplaza el estimador de recompensa escalar de GRPO con uno de valor vectorial, produciendo distribuciones de respuesta diversas que requiere la búsqueda en árbol en tiempo de inferencia. En LiveCodeBench, un Qwen2.5-Coder-7B-Instruct entrenado con VPO supera un punto de control GRPO con computación equivalente tanto en pass@k como en best@k. Dentro del bucle de búsqueda evolutiva OpenEvolve, resuelve problemas que GRPO no puede resolver en ningún presupuesto de candidatos.

La incompatibilidad estructural: el post-entrenamiento estándar con GRPO optimiza una única recompensa escalar, conduciendo la política a una distribución de respuesta estrecha y de alta probabilidad. La baja entropía funciona bien para decodificación ávida. Se convierte en una desventaja una vez que un sistema envuelve el modelo en búsqueda — muestreo por rechazo, búsqueda por haz, operadores evolutivos — que dependen de muestrear candidatos diversos y no redundantes. Después del entrenamiento con GRPO, los rollouts adicionales se convierten en casi duplicados. El procedimiento de búsqueda gana casi nada de un presupuesto de muestra mayor.

VPO trata las recompensas como valores vectoriales en lugar de escalares. En generación de código, cada caso de prueba es su propia dimensión de recompensa. En RLHF, cada modelo de recompensa o persona de usuario es una dimensión. VPO combina generación de múltiples respuestas con escalarizaciones de recompensa estocásticas, entrenando el modelo para producir conjuntos de soluciones que abarcan la frontera de Pareto del espacio de recompensa vectorial en lugar de converger en un único punto. El mecanismo es un reemplazo directo del estimador de ventaja GRPO — no se requieren cambios arquitectónicos.

La evaluación cubrió cuatro tipos de tarea: respuesta a preguntas multi-salto, razonamiento lógico, navegación, uso de herramientas y generación de código (LiveCodeBench). VPO igualó o superó los baselines de RL escalar más sólidos en best@k en tiempo de prueba en los cuatro. La brecha de desempeño se amplió conforme el presupuesto de candidatos creció — más computación de inferencia amplificó la ventaja de diversidad de VPO. El resultado de búsqueda evolutiva fue marcado: los modelos entrenados con VPO resolvieron problemas a través de OpenEvolve que los modelos entrenados con GRPO no pudieron resolver en ningún conteo de candidatos.

Las brechas: no se divulgan números de despliegue en producción. El artículo no reporta ni horas de GPU de entrenamiento, tiempo transcurrido, costo por ejecución, ni latencia de inferencia. El único modelo probado a escala es Qwen2.5-Coder-7B-Instruct. La generalización a modelos más grandes (30B+), destinos de destilación de modelo cerrado o dominios no relacionados con código permanece sin estudiar. La descomposición de recompensa vectorial requiere ingeniería de recompensa específica de la tarea — las señales por caso de prueba son naturales en código, pero construir vectores de recompensa significativos para generación abierta o diálogo multi-turno es no trivial. Cómo VPO interactúa con penalizaciones de KL y el riesgo de explotación de recompensas en el espacio vectorial no se analizan.

Para equipos que ya ejecutan post-entrenamiento basado en GRPO, la ruta de integración es de baja fricción: reemplace el estimador de ventaja, defina su vector de recompensa (casos de prueba, criterios de rúbrica, personas) y entrene. El levantamiento más difícil está del lado de la inferencia — VPO solo se amortiza si su despliegue ejecuta un procedimiento de búsqueda con k > 1 rollouts. Servicio avaro o temperatura=0 no gana nada del entrenamiento en tiempo de diversidad. VPO es un rediseño de señal de entrenamiento para sistemas donde el escalado de computación en tiempo de prueba ya es parte de la pila.

Si está construyendo tuberías estilo AlphaEvolve u optimizadas para pass@k y post-entrenamiento con GRPO, reemplace el estimador de ventaja con VPO antes de su próximo entrenamiento. El dividendo de diversidad se compone con cada unidad de computación de inferencia que agregue.

Sources

VPO is a drop-in replacement for the GRPO advantage estimator that trains LLMs to produce diverse solutions across a vector reward space
"VPO is essentially a drop-in replacement for the GRPO advantage estimator, but it trains the LLM to output a set of solutions where individual solutions specialize to different trade-offs in the vector reward space."
arxiv.org ↗
GRPO post-training leads to low-entropy response distributions that hurt inference-time search
"the standard paradigm of LLM post-training optimizes a pre-specified scalar reward, often leading current LLMs to produce low-entropy response distributions and thus to struggle at displaying the diversity that inference-time search will require."
arxiv.org ↗
VPO-trained Qwen2.5-Coder-7B-Instruct improves pass@k and best@k over a matched-compute GRPO checkpoint on LiveCodeBench
"on LiveCodeBench, a VPO-trained Qwen2.5-Coder-7B-Instruct improves both pass@k and best@k over a matched-compute GRPO checkpoint"
arxiv.org ↗
In evolutionary search (OpenEvolve), VPO unlocks problems that GRPO models cannot solve at any candidate budget
"inside the OpenEvolve search loop unlocks problems that GRPO models cannot solve at any candidate budget"
arxiv.org ↗
VPO uses multi-answer generation combined with stochastic reward scalarizations to cover the Pareto frontier of the vector reward space
"VPO combines multi-answer generation with stochastic reward scalarizations, training the model to produce sets of candidates that span the Pareto frontier rather than collapsing onto a single point."
arxiv.org ↗
VPO evaluated across four tasks: multi-hop QA, logic reasoning, navigation, tool use, and coding; matches or beats scalar RL baselines with gap widening at larger search budgets
"Across four tasks, VPO matches or beats the strongest scalar RL baselines on test-time search (e.g. pass@k and best@k), with the gap widening as the search budget grows."
arxiv.org ↗
After GRPO training, additional rollout samples become near-duplicates, limiting test-time search benefit
"After training, the diversity required for effective test-time search disappears, as additional samples become near-duplicates"
arxiv.org ↗
Authors from MIT, Improbable AI Lab, MIT-IBM Computing Research Lab, and Sakana AI
"Ryan Bahlous-Boldi1,2 Isha Puri1 Idan Shenfeld1,2 Akarsh Kumar1 Mehul Damani1 Sebastian Risi4 Omar Khattab1 Zhang-Wei Hong1,2,3 Pulkit Agrawal1,2 1MIT 2Improbable AI Lab 3MIT-IBM Computing Research Lab 4Sakana AI"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Vector Policy Optimization supera GRPO en muestreo diverso

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.