RiVER Permite Aprendizaje por Refuerzo Sin Etiquetas de Verdad Absoluta

Un equipo de Microsoft Research publicó RiVER el 25 de junio, empujando Qwen3-8B un 8,9% hacia arriba en ranking de evaluación ALE y GLM-Z1-9B-0414 un 9,4% hacia arriba sin etiquetas de verdad absoluta. El framework extiende reinforcement learning con recompensas verificables (RLVR) a tareas de optimización basadas en puntuación—problemas donde no existe una respuesta correcta canónica y la calidad se mide en una escala continua.

Los pipelines RLVR estándar, la maquinaria detrás de DeepSeek-R1 y la serie o, dependen de verificadores binarios: pruebas unitarias, pruebas formales, verificadores de coincidencia exacta de respuestas. Eso funciona para matemáticas y programación competitiva donde las respuestas son correctas o incorrectas. Se desmorona para programación, enrutamiento, optimización combinatoria y desafíos de código heurístico donde los outputs son "mejores" o "peores" por puntuación, no correctos o incorrectos. RiVER hace que group-relative policy optimization (GRPO) funcione en señales de recompensa continuas.

El artículo identifica dos modos de fallo cuando los equipos introducen puntuaciones de ejecución sin procesar en GRPO. Dominancia de escala: las magnitudes de puntuación varían enormemente entre instancias de problemas, por lo que un problema con puntuaciones en escala de miles domina las actualizaciones de gradiente sobre uno con puntuaciones de uno o dos dígitos. Dominancia de frecuencia: al muestrear múltiples rollouts por problema, las soluciones mediocres que aparecen frecuentemente acumulan más peso que los outputs raros de alta calidad. La solución de RiVER es calibración de recompensas—normalizar recompensas instancia a instancia, luego aumentar el peso de soluciones top-ranked en cada lote mientras se mantiene retroalimentación acotada para el resto.

El entrenamiento se ejecutó en 12 tareas del Concurso Heurístico AtCoder, problemas diseñados para no tener una respuesta correcta fija, solo una puntuación de calidad del juez. Los checkpoints resultantes fueron evaluados en tres benchmarks: ALE-Bench (Ingeniería de Algoritmos), LiveCodeBench (codificación general) e USACO (programación competitiva con soluciones exactas). Las ganancias ALE coinciden con la distribución de entrenamiento. La transferencia entre benchmarks es el resultado operacional: +2,4% promedio en LiveCodeBench y +3,5% en USACO, ambos benchmarks de solución exacta en los que el modelo nunca entrenó. Las líneas base entrenadas con puntuaciones de ejecución sin procesar mejoraron el ranking ALE pero no mostraron transferencia a benchmarks de solución exacta. La calibración hace trabajo real, no solo reescalado de números.

Para equipos ejecutando pipelines de fine-tuning, tareas de optimización propietarias—problemas internos de programación, generadores de código específicos del dominio puntuados por un simulador, sintonizadores de hiperparámetros con oráculos de validation-loss—se convierten en entornos de entrenamiento RLVR utilizables. El cuello de botella de etiquetado que confinaba RLVR a matemáticas y programación competitiva no se aplica cuando la retroalimentación de ejecución es su señal de recompensa. Aún necesita un scorer confiable, pero ya no necesita que los humanos se pongan de acuerdo en la respuesta correcta.

Trabajos recientes han argumentado que RLVR principalmente comprime eficiencia de muestreo—concentrando masa de probabilidad en caminos que el modelo base ya podría generar—en lugar de expandir lo que el modelo realmente puede hacer. La transferencia entre benchmarks de RiVER se opone a ese enfoque para el entrenamiento basado en puntuación. Si las ganancias representan una expansión genuina de capacidad o compresión de búsqueda limpia está sin resolver; la configuración de evaluación (modelos 8B–9B, dominio de codificación) limita la generalización.

Si su dominio tiene un scorer determinístico pero ningún conjunto de respuestas etiquetadas, la calibración de recompensas de RiVER hace que el fine-tuning basado en GRPO sea práctico: ejecute énfasis de top-rank, normalice por instancia, y la transferencia entre dominios sugiere que está entrenando algo más general de lo que el scorer ve.

Sources

RiVER advances Qwen3-8B by 8.9% and GLM-Z1-9B-0414 by 9.4% in ALE rating rank, trained on 12 AtCoder Heuristic Contest tasks without ground-truth solutions
"RiVER advances Qwen3-8B and GLM-Z1-9B-0414 by 8.9% and 9.4% in ALE rating rank"
arxiv.org ↗
RiVER improves exact-solution benchmarks LiveCodeBench by 2.4% and USACO by 3.5% absolute average despite training only on score-based tasks
"RiVER also improves the backbones across exact-solution benchmarks such as LiveCodeBench and USACO by an absolute average improvement of 2.4% and 3.5%"
arxiv.org ↗
Baselines trained with raw execution scores improve ALE rating but fail to transfer to exact-solution benchmarks
"baselines trained with raw execution scores improve ALE rating but fail to transfer to exact-solution benchmarks"
arxiv.org ↗
Scale dominance (uncalibrated score magnitudes distort policy updates) and frequency dominance (suboptimal solutions outweigh rare stronger candidates) are the two key challenges RiVER identifies and addresses
"scale dominance, where uncalibrated score magnitudes across test instances distort policy updates, and frequency dominance, where repeatedly sampled suboptimal solutions can outweigh rare but stronger candidates"
arxiv.org ↗
Standard RLVR relies on ground-truth answers to assign rewards, limiting applicability to tasks where the ground-truth solution is unknown
"Reinforcement learning with verifiable rewards (RLVR) for training LLMs typically rely on ground-truth answers to assign rewards, limiting their applicability to tasks where the ground-truth solution is unknown"
arxiv.org ↗
Current RLVR models often exhibit narrower reasoning coverage than their base models; as training progresses, pass@1 improves but pass@256 coverage decreases
"Current RLVR models often exhibit narrower reasoning coverage than their base models. In pass@k, it is surprising that base models consistently surpass RLVR models across all benchmarks"
arxiv.org ↗
RLVR eliminates need for separate critic or reward models and can achieve strong results with limited training data, scaling without human intervention
"This approach offers practical benefits by eliminating the need for separate critic or reward models, and can achieve strong results with limited training data"
labelstud.io ↗
RiVER uses calibrated reward shaping with instance-wise comparisons that emphasizes top-ranked solvers while retaining bounded feedback for other valid solutions
"calibrated reward shaping that uses instance-wise comparisons and emphasizes top-ranked solvers while retaining bounded feedback for other valid solutions"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

RiVER Permite Aprendizaje por Refuerzo Sin Etiquetas de Verdad Absoluta

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.