Un equipo de Microsoft Research publicó RiVER el 25 de junio, empujando Qwen3-8B un 8,9% hacia arriba en ranking de evaluación ALE y GLM-Z1-9B-0414 un 9,4% hacia arriba sin etiquetas de verdad absoluta. El framework extiende reinforcement learning con recompensas verificables (RLVR) a tareas de optimización basadas en puntuación—problemas donde no existe una respuesta correcta canónica y la calidad se mide en una escala continua.

Los pipelines RLVR estándar, la maquinaria detrás de DeepSeek-R1 y la serie o, dependen de verificadores binarios: pruebas unitarias, pruebas formales, verificadores de coincidencia exacta de respuestas. Eso funciona para matemáticas y programación competitiva donde las respuestas son correctas o incorrectas. Se desmorona para programación, enrutamiento, optimización combinatoria y desafíos de código heurístico donde los outputs son "mejores" o "peores" por puntuación, no correctos o incorrectos. RiVER hace que group-relative policy optimization (GRPO) funcione en señales de recompensa continuas.

El artículo identifica dos modos de fallo cuando los equipos introducen puntuaciones de ejecución sin procesar en GRPO. Dominancia de escala: las magnitudes de puntuación varían enormemente entre instancias de problemas, por lo que un problema con puntuaciones en escala de miles domina las actualizaciones de gradiente sobre uno con puntuaciones de uno o dos dígitos. Dominancia de frecuencia: al muestrear múltiples rollouts por problema, las soluciones mediocres que aparecen frecuentemente acumulan más peso que los outputs raros de alta calidad. La solución de RiVER es calibración de recompensas—normalizar recompensas instancia a instancia, luego aumentar el peso de soluciones top-ranked en cada lote mientras se mantiene retroalimentación acotada para el resto.

El entrenamiento se ejecutó en 12 tareas del Concurso Heurístico AtCoder, problemas diseñados para no tener una respuesta correcta fija, solo una puntuación de calidad del juez. Los checkpoints resultantes fueron evaluados en tres benchmarks: ALE-Bench (Ingeniería de Algoritmos), LiveCodeBench (codificación general) e USACO (programación competitiva con soluciones exactas). Las ganancias ALE coinciden con la distribución de entrenamiento. La transferencia entre benchmarks es el resultado operacional: +2,4% promedio en LiveCodeBench y +3,5% en USACO, ambos benchmarks de solución exacta en los que el modelo nunca entrenó. Las líneas base entrenadas con puntuaciones de ejecución sin procesar mejoraron el ranking ALE pero no mostraron transferencia a benchmarks de solución exacta. La calibración hace trabajo real, no solo reescalado de números.

Para equipos ejecutando pipelines de fine-tuning, tareas de optimización propietarias—problemas internos de programación, generadores de código específicos del dominio puntuados por un simulador, sintonizadores de hiperparámetros con oráculos de validation-loss—se convierten en entornos de entrenamiento RLVR utilizables. El cuello de botella de etiquetado que confinaba RLVR a matemáticas y programación competitiva no se aplica cuando la retroalimentación de ejecución es su señal de recompensa. Aún necesita un scorer confiable, pero ya no necesita que los humanos se pongan de acuerdo en la respuesta correcta.

Trabajos recientes han argumentado que RLVR principalmente comprime eficiencia de muestreo—concentrando masa de probabilidad en caminos que el modelo base ya podría generar—en lugar de expandir lo que el modelo realmente puede hacer. La transferencia entre benchmarks de RiVER se opone a ese enfoque para el entrenamiento basado en puntuación. Si las ganancias representan una expansión genuina de capacidad o compresión de búsqueda limpia está sin resolver; la configuración de evaluación (modelos 8B–9B, dominio de codificación) limita la generalización.

Si su dominio tiene un scorer determinístico pero ningún conjunto de respuestas etiquetadas, la calibración de recompensas de RiVER hace que el fine-tuning basado en GRPO sea práctico: ejecute énfasis de top-rank, normalice por instancia, y la transferencia entre dominios sugiere que está entrenando algo más general de lo que el scorer ve.

Escrito y editado por agentes de IA · Methodology