RiVER Permite Aprendizado por Reforço Sem Rótulos de Verdade Absoluta

Um time do Microsoft Research publicou RiVER em 25 de junho, empurrando Qwen3-8B 8,9% para cima em ranking de avaliação ALE e GLM-Z1-9B-0414 9,4% para cima sem rótulos de verdade absoluta. O framework estende reinforcement learning com recompensas verificáveis (RLVR) para tarefas de otimização baseadas em pontuação—problemas onde nenhuma resposta correta canônica existe e qualidade é medida em uma escala contínua.

Pipelines RLVR padrão, a maquinaria por trás de DeepSeek-R1 e da série o, dependem de verificadores binários: testes unitários, provas formais, checadores de correspondência exata de respostas. Isso funciona para matemática e programação competitiva onde respostas estão certas ou erradas. Quebra para agendamento, roteamento, otimização combinatória e desafios de código heurístico onde outputs são "melhores" ou "piores" por pontuação, não corretos ou incorretos. RiVER faz group-relative policy optimization (GRPO) funcionar em sinais de recompensa contínuos.

O artigo identifica dois modos de falha quando times conectam pontuações de execução bruta em GRPO. Dominância de escala: magnitudes de pontuação variam muito entre instâncias de problema, então um problema com pontuações em escala de milhares domina updates de gradiente sobre um com pontuações em um ou dois dígitos. Dominância de frequência: quando amostrando múltiplos rollouts por problema, soluções mediocres aparecendo frequentemente acumulam mais peso do que outputs raros de alta qualidade. O fix de RiVER é reward shaping calibrado—normalizar recompensas instância por instância, então aumentar peso de soluções top-ranked em cada batch enquanto mantém feedback limitado para o resto.

O treinamento rodou em 12 tarefas do AtCoder Heuristic Contest, problemas projetados para não ter resposta correta fixa, apenas uma pontuação de qualidade do juiz. Os checkpoints resultantes foram avaliados em três benchmarks: ALE-Bench (Algorithm Engineering), LiveCodeBench (codificação geral) e USACO (programação competitiva com soluções exatas). Os ganhos ALE correspondem à distribuição de treinamento. Cross-benchmark transfer é o resultado operacional: +2,4% média em LiveCodeBench e +3,5% em USACO, ambos benchmarks de solução exata que o modelo nunca treinou. Baselines treinados com pontuações de execução bruta melhoraram ranking ALE mas mostraram sem transfer para benchmarks de solução exata. A calibração faz trabalho real, não apenas rescaling de números.

Para times rodando pipelines de fine-tuning, tarefas de otimização proprietárias—problemas internos de agendamento, geradores de código específicos de domínio pontuados por um simulador, ajustadores de hiperparâmetro com oráculos de validation-loss—se tornam ambientes de treinamento RLVR usáveis. O gargalo de rotulação que confinava RLVR a matemática e codificação competitiva não se aplica quando feedback de execução é seu sinal de recompensa. Você ainda precisa de um scorer confiável, mas não precisa mais de humanos concordando na resposta correta.

Trabalho recente tem argumentado que RLVR principalmente comprime eficiência de amostragem—concentrando massa de probabilidade em caminhos que o modelo base já poderia gerar—ao invés de expandir o que o modelo realmente pode fazer. Cross-benchmark transfer de RiVER rejeita esse enquadramento para treinamento baseado em pontuação. Se os ganhos representam expansão genuína de capacidade ou compressão de busca limpa é indeciso; a configuração de avaliação (modelos 8B–9B, domínio de codificação) limita generalização.

Se seu domínio tem um scorer determinístico mas nenhum conjunto de respostas rotuladas, o calibrated reward shaping de RiVER torna fine-tuning baseado em GRPO prático: rode ênfase de top-rank, normalize por instância, e transfer cross-domain sugere que você está treinando algo mais geral do que o scorer vê.

Sources

RiVER advances Qwen3-8B by 8.9% and GLM-Z1-9B-0414 by 9.4% in ALE rating rank, trained on 12 AtCoder Heuristic Contest tasks without ground-truth solutions
"RiVER advances Qwen3-8B and GLM-Z1-9B-0414 by 8.9% and 9.4% in ALE rating rank"
arxiv.org ↗
RiVER improves exact-solution benchmarks LiveCodeBench by 2.4% and USACO by 3.5% absolute average despite training only on score-based tasks
"RiVER also improves the backbones across exact-solution benchmarks such as LiveCodeBench and USACO by an absolute average improvement of 2.4% and 3.5%"
arxiv.org ↗
Baselines trained with raw execution scores improve ALE rating but fail to transfer to exact-solution benchmarks
"baselines trained with raw execution scores improve ALE rating but fail to transfer to exact-solution benchmarks"
arxiv.org ↗
Scale dominance (uncalibrated score magnitudes distort policy updates) and frequency dominance (suboptimal solutions outweigh rare stronger candidates) are the two key challenges RiVER identifies and addresses
"scale dominance, where uncalibrated score magnitudes across test instances distort policy updates, and frequency dominance, where repeatedly sampled suboptimal solutions can outweigh rare but stronger candidates"
arxiv.org ↗
Standard RLVR relies on ground-truth answers to assign rewards, limiting applicability to tasks where the ground-truth solution is unknown
"Reinforcement learning with verifiable rewards (RLVR) for training LLMs typically rely on ground-truth answers to assign rewards, limiting their applicability to tasks where the ground-truth solution is unknown"
arxiv.org ↗
Current RLVR models often exhibit narrower reasoning coverage than their base models; as training progresses, pass@1 improves but pass@256 coverage decreases
"Current RLVR models often exhibit narrower reasoning coverage than their base models. In pass@k, it is surprising that base models consistently surpass RLVR models across all benchmarks"
arxiv.org ↗
RLVR eliminates need for separate critic or reward models and can achieve strong results with limited training data, scaling without human intervention
"This approach offers practical benefits by eliminating the need for separate critic or reward models, and can achieve strong results with limited training data"
labelstud.io ↗
RiVER uses calibrated reward shaping with instance-wise comparisons that emphasizes top-ranked solvers while retaining bounded feedback for other valid solutions
"calibrated reward shaping that uses instance-wise comparisons and emphasizes top-ranked solvers while retaining bounded feedback for other valid solutions"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

RiVER Permite Aprendizado por Reforço Sem Rótulos de Verdade Absoluta

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.