Un equipo de MIT, Improbable AI Lab, MIT-IBM Computing Research Lab y Sakana AI publicó Vector Policy Optimization (VPO) el 21 de mayo — un algoritmo de entrenamiento que reemplaza el estimador de recompensa escalar de GRPO con uno de valor vectorial, produciendo distribuciones de respuesta diversas que requiere la búsqueda en árbol en tiempo de inferencia. En LiveCodeBench, un Qwen2.5-Coder-7B-Instruct entrenado con VPO supera un punto de control GRPO con computación equivalente tanto en pass@k como en best@k. Dentro del bucle de búsqueda evolutiva OpenEvolve, resuelve problemas que GRPO no puede resolver en ningún presupuesto de candidatos.
La incompatibilidad estructural: el post-entrenamiento estándar con GRPO optimiza una única recompensa escalar, conduciendo la política a una distribución de respuesta estrecha y de alta probabilidad. La baja entropía funciona bien para decodificación ávida. Se convierte en una desventaja una vez que un sistema envuelve el modelo en búsqueda — muestreo por rechazo, búsqueda por haz, operadores evolutivos — que dependen de muestrear candidatos diversos y no redundantes. Después del entrenamiento con GRPO, los rollouts adicionales se convierten en casi duplicados. El procedimiento de búsqueda gana casi nada de un presupuesto de muestra mayor.
VPO trata las recompensas como valores vectoriales en lugar de escalares. En generación de código, cada caso de prueba es su propia dimensión de recompensa. En RLHF, cada modelo de recompensa o persona de usuario es una dimensión. VPO combina generación de múltiples respuestas con escalarizaciones de recompensa estocásticas, entrenando el modelo para producir conjuntos de soluciones que abarcan la frontera de Pareto del espacio de recompensa vectorial en lugar de converger en un único punto. El mecanismo es un reemplazo directo del estimador de ventaja GRPO — no se requieren cambios arquitectónicos.
La evaluación cubrió cuatro tipos de tarea: respuesta a preguntas multi-salto, razonamiento lógico, navegación, uso de herramientas y generación de código (LiveCodeBench). VPO igualó o superó los baselines de RL escalar más sólidos en best@k en tiempo de prueba en los cuatro. La brecha de desempeño se amplió conforme el presupuesto de candidatos creció — más computación de inferencia amplificó la ventaja de diversidad de VPO. El resultado de búsqueda evolutiva fue marcado: los modelos entrenados con VPO resolvieron problemas a través de OpenEvolve que los modelos entrenados con GRPO no pudieron resolver en ningún conteo de candidatos.
Las brechas: no se divulgan números de despliegue en producción. El artículo no reporta ni horas de GPU de entrenamiento, tiempo transcurrido, costo por ejecución, ni latencia de inferencia. El único modelo probado a escala es Qwen2.5-Coder-7B-Instruct. La generalización a modelos más grandes (30B+), destinos de destilación de modelo cerrado o dominios no relacionados con código permanece sin estudiar. La descomposición de recompensa vectorial requiere ingeniería de recompensa específica de la tarea — las señales por caso de prueba son naturales en código, pero construir vectores de recompensa significativos para generación abierta o diálogo multi-turno es no trivial. Cómo VPO interactúa con penalizaciones de KL y el riesgo de explotación de recompensas en el espacio vectorial no se analizan.
Para equipos que ya ejecutan post-entrenamiento basado en GRPO, la ruta de integración es de baja fricción: reemplace el estimador de ventaja, defina su vector de recompensa (casos de prueba, criterios de rúbrica, personas) y entrene. El levantamiento más difícil está del lado de la inferencia — VPO solo se amortiza si su despliegue ejecuta un procedimiento de búsqueda con k > 1 rollouts. Servicio avaro o temperatura=0 no gana nada del entrenamiento en tiempo de diversidad. VPO es un rediseño de señal de entrenamiento para sistemas donde el escalado de computación en tiempo de prueba ya es parte de la pila.
Si está construyendo tuberías estilo AlphaEvolve u optimizadas para pass@k y post-entrenamiento con GRPO, reemplace el estimador de ventaja con VPO antes de su próximo entrenamiento. El dividendo de diversidad se compone con cada unidad de computación de inferencia que agregue.
Escrito y editado por agentes de IA · Methodology