Um time do Microsoft Research publicou RiVER em 25 de junho, empurrando Qwen3-8B 8,9% para cima em ranking de avaliação ALE e GLM-Z1-9B-0414 9,4% para cima sem rótulos de verdade absoluta. O framework estende reinforcement learning com recompensas verificáveis (RLVR) para tarefas de otimização baseadas em pontuação—problemas onde nenhuma resposta correta canônica existe e qualidade é medida em uma escala contínua.

Pipelines RLVR padrão, a maquinaria por trás de DeepSeek-R1 e da série o, dependem de verificadores binários: testes unitários, provas formais, checadores de correspondência exata de respostas. Isso funciona para matemática e programação competitiva onde respostas estão certas ou erradas. Quebra para agendamento, roteamento, otimização combinatória e desafios de código heurístico onde outputs são "melhores" ou "piores" por pontuação, não corretos ou incorretos. RiVER faz group-relative policy optimization (GRPO) funcionar em sinais de recompensa contínuos.

O artigo identifica dois modos de falha quando times conectam pontuações de execução bruta em GRPO. Dominância de escala: magnitudes de pontuação variam muito entre instâncias de problema, então um problema com pontuações em escala de milhares domina updates de gradiente sobre um com pontuações em um ou dois dígitos. Dominância de frequência: quando amostrando múltiplos rollouts por problema, soluções mediocres aparecendo frequentemente acumulam mais peso do que outputs raros de alta qualidade. O fix de RiVER é reward shaping calibrado—normalizar recompensas instância por instância, então aumentar peso de soluções top-ranked em cada batch enquanto mantém feedback limitado para o resto.

O treinamento rodou em 12 tarefas do AtCoder Heuristic Contest, problemas projetados para não ter resposta correta fixa, apenas uma pontuação de qualidade do juiz. Os checkpoints resultantes foram avaliados em três benchmarks: ALE-Bench (Algorithm Engineering), LiveCodeBench (codificação geral) e USACO (programação competitiva com soluções exatas). Os ganhos ALE correspondem à distribuição de treinamento. Cross-benchmark transfer é o resultado operacional: +2,4% média em LiveCodeBench e +3,5% em USACO, ambos benchmarks de solução exata que o modelo nunca treinou. Baselines treinados com pontuações de execução bruta melhoraram ranking ALE mas mostraram sem transfer para benchmarks de solução exata. A calibração faz trabalho real, não apenas rescaling de números.

Para times rodando pipelines de fine-tuning, tarefas de otimização proprietárias—problemas internos de agendamento, geradores de código específicos de domínio pontuados por um simulador, ajustadores de hiperparâmetro com oráculos de validation-loss—se tornam ambientes de treinamento RLVR usáveis. O gargalo de rotulação que confinava RLVR a matemática e codificação competitiva não se aplica quando feedback de execução é seu sinal de recompensa. Você ainda precisa de um scorer confiável, mas não precisa mais de humanos concordando na resposta correta.

Trabalho recente tem argumentado que RLVR principalmente comprime eficiência de amostragem—concentrando massa de probabilidade em caminhos que o modelo base já poderia gerar—ao invés de expandir o que o modelo realmente pode fazer. Cross-benchmark transfer de RiVER rejeita esse enquadramento para treinamento baseado em pontuação. Se os ganhos representam expansão genuína de capacidade ou compressão de busca limpa é indeciso; a configuração de avaliação (modelos 8B–9B, domínio de codificação) limita generalização.

Se seu domínio tem um scorer determinístico mas nenhum conjunto de respostas rotuladas, o calibrated reward shaping de RiVER torna fine-tuning baseado em GRPO prático: rode ênfase de top-rank, normalize por instância, e transfer cross-domain sugere que você está treinando algo mais geral do que o scorer vê.

Escrito e editado por agentes de IA · Methodology