RELEX reconstrói checkpoints RLVR a partir de 15% dos dados de treinamento

Novo trabalho mostra que aprendizado por reforço a partir de recompensas verificáveis produz mudanças de trajetória de pesos extremamente low-rank, com aproximações rank-1 capturando a maioria dos ganhos de desempenho downstream. Implicação: equipes fine-tuning de modelos de raciocínio podem prever e comprimir atualizações RLVR, reduzindo computação de treinamento e possibilitando iteração mais rápida em sinais de recompensa.

Aprendizado por reforço a partir de recompensas verificáveis (RLVR) — o paradigma impulsionando a maioria das melhorias atuais de modelos de raciocínio — produz atualizações de pesos capturadas por uma única direção rank-1. Um novo artigo mostra que equipes podem reconstruir checkpoints de desempenho quase completo a partir de apenas 15% da execução de treinamento, com zero custo adicional de treinamento.

O artigo, "You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories," examina a geometria de matrizes de delta de parâmetros durante RLVR. Quando atualizações de pesos são decompostas via SVD, o primeiro vetor singular domina. A aproximação rank-1 do delta de parâmetros captura a maioria do desempenho downstream de benchmark. A magnitude dessa projeção rank-1 cresce aproximadamente linearmente com as etapas de treinamento — a trajetória inteira é previsível a partir de um prefixo curto.

Os autores constroem RELEX (REinforcement Learning EXtrapolation) baseado nessa descoberta. O pipeline: executar uma janela de observação RLVR curta para coletar checkpoints de pesos, estimar o subespaço rank-1 a partir desses deltas, ajustar uma regressão linear sobre a trajetória e extrapolar checkpoints futuros aritmeticamente. Sem computação de gradiente, sem modelo aprendido, sem loop de treinamento. O código está disponível em github.com/weizhepei/RELEX.

RELEX corresponde ou supera o treinamento RLVR completo tanto em tarefas in-domain quanto out-of-domain em Qwen2.5-Math-1.5B, Qwen3-4B-Base e Qwen3-8B-Base, com janelas de observação tão pequenas quanto 15% do total de etapas de treinamento. O intervalo de extrapolação é agressivo: observar os primeiros 50 passos de gradiente, extrapolar até a etapa 1000, e o checkpoint extrapolado corresponde ou supera o checkpoint treinado até a etapa 1000. Fatores de extrapolação chegam a 10–20× além do prefixo observado com melhoria continuada de desempenho. Nenhuma figura de latência, custo por token ou GPU-hora é divulgada.

Aumentar o subespaço para rank-2, rank-3 ou superior não melhorou a precisão da extrapolação. Substituir regressão linear por um modelo de extrapolação não linear também falhou. Os autores interpretam ambos os resultados como evidência de um efeito de "denoising": projetar atualizações no subespaço rank-1 remove ruído de otimização estocástica de Adam, e esse ruído degrada a qualidade do checkpoint extrapolado. A linearidade da magnitude da trajetória rank-1 é o que torna a extrapolação aritmética funcionar.

O argumento mecanístico é plausível mas incompletamente verificado. O artigo não realiza ablação sobre escolha de otimizador, cronograma de taxa de aprendizado ou tamanho de batch para isolar a hipótese de stripping de ruído. Separar essas questões importa se você está ajustando um pipeline RLVR em produção onde o otimizador ou cronograma diferem da configuração do artigo.

A generalização fora do raciocínio matemático não é testada. Todas as três famílias de modelos são variantes Qwen, e todas as tarefas são matemáticas. Se a estrutura rank-1 se mantém durante RLVR em geração de código, uso de ferramentas ou diálogo multi-turno — onde sinais de recompensa são mais ruidosos, esparsos e composicionais — permanece desconhecido. Suposições de trajetória linear também podem quebrar sob cronogramas de recompensa de currículo ou durante treinamento em estágio tardio onde dinâmicas de magnitude de atualização mudam.

Se você está queimando computação de execução completa para comparar variantes de sinal de recompensa durante iteração RLVR, RELEX é um atalho: execute 15% de cada candidato, extrapole, faça benchmark em seu suite de avaliação, então comprometa-se com o vencedor antes de agendar a execução completa.

Sources

RLVR weight trajectories are extremely low-rank; rank-1 approximation of parameter deltas captures majority of downstream performance gains
"we find that the majority of downstream performance gains are captured by a rank-1 approximation of the parameter deltas, where the magnitude of this projection evolves near-linearly with training steps"
arxiv.org ↗
RELEX requires as few as 15% of full RLVR training steps to match or exceed full-run performance
"RELEX produces checkpoints that match or exceed RLVR performance on both in-domain and out-of-domain benchmarks, requiring as few as 15% steps of full RLVR training"
arxiv.org ↗
RELEX extrapolates 10–20× beyond the observed prefix; e.g., observe 50 steps and extrapolate to 1000 steps with continued improvement
"RELEX is able to extrapolate far beyond the observation window at no training cost, predicting checkpoints up to 10-20× beyond the observed prefix with continued improvement (e.g., observe only the first 50 steps and extrapolate to 1000 steps)"
arxiv.org ↗
Models evaluated: Qwen2.5-Math-1.5B, Qwen3-4B-Base, and Qwen3-8B-Base
"Across three models (i.e., Qwen2.5-Math-1.5B, Qwen3-4B-Base, and Qwen3-8B-Base)"
arxiv.org ↗
Neither increasing subspace rank beyond 1 nor using nonlinear modeling improved extrapolation results
"neither increasing the subspace rank nor employing non-linear modeling yields further gains in extrapolation"
arxiv.org ↗
RELEX's performance gains stem from a denoising effect: projecting updates onto the rank-1 subspace discards stochastic optimization noise
"RELEX's success stems from a 'denoising' effect: by projecting updates onto the rank-1 subspace, the model discards stochastic optimization noise that would otherwise degrade performance during extrapolation"
arxiv.org ↗
Code is available at github.com/weizhepei/RELEX
"Our code is available at https://github.com/weizhepei/RELEX"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

RELEX reconstrói checkpoints RLVR a partir de 15% dos dados de treinamento

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.