Aprendizado por reforço a partir de recompensas verificáveis (RLVR) — o paradigma impulsionando a maioria das melhorias atuais de modelos de raciocínio — produz atualizações de pesos capturadas por uma única direção rank-1. Um novo artigo mostra que equipes podem reconstruir checkpoints de desempenho quase completo a partir de apenas 15% da execução de treinamento, com zero custo adicional de treinamento.
O artigo, "You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories," examina a geometria de matrizes de delta de parâmetros durante RLVR. Quando atualizações de pesos são decompostas via SVD, o primeiro vetor singular domina. A aproximação rank-1 do delta de parâmetros captura a maioria do desempenho downstream de benchmark. A magnitude dessa projeção rank-1 cresce aproximadamente linearmente com as etapas de treinamento — a trajetória inteira é previsível a partir de um prefixo curto.
Os autores constroem RELEX (REinforcement Learning EXtrapolation) baseado nessa descoberta. O pipeline: executar uma janela de observação RLVR curta para coletar checkpoints de pesos, estimar o subespaço rank-1 a partir desses deltas, ajustar uma regressão linear sobre a trajetória e extrapolar checkpoints futuros aritmeticamente. Sem computação de gradiente, sem modelo aprendido, sem loop de treinamento. O código está disponível em github.com/weizhepei/RELEX.
RELEX corresponde ou supera o treinamento RLVR completo tanto em tarefas in-domain quanto out-of-domain em Qwen2.5-Math-1.5B, Qwen3-4B-Base e Qwen3-8B-Base, com janelas de observação tão pequenas quanto 15% do total de etapas de treinamento. O intervalo de extrapolação é agressivo: observar os primeiros 50 passos de gradiente, extrapolar até a etapa 1000, e o checkpoint extrapolado corresponde ou supera o checkpoint treinado até a etapa 1000. Fatores de extrapolação chegam a 10–20× além do prefixo observado com melhoria continuada de desempenho. Nenhuma figura de latência, custo por token ou GPU-hora é divulgada.
Aumentar o subespaço para rank-2, rank-3 ou superior não melhorou a precisão da extrapolação. Substituir regressão linear por um modelo de extrapolação não linear também falhou. Os autores interpretam ambos os resultados como evidência de um efeito de "denoising": projetar atualizações no subespaço rank-1 remove ruído de otimização estocástica de Adam, e esse ruído degrada a qualidade do checkpoint extrapolado. A linearidade da magnitude da trajetória rank-1 é o que torna a extrapolação aritmética funcionar.
O argumento mecanístico é plausível mas incompletamente verificado. O artigo não realiza ablação sobre escolha de otimizador, cronograma de taxa de aprendizado ou tamanho de batch para isolar a hipótese de stripping de ruído. Separar essas questões importa se você está ajustando um pipeline RLVR em produção onde o otimizador ou cronograma diferem da configuração do artigo.
A generalização fora do raciocínio matemático não é testada. Todas as três famílias de modelos são variantes Qwen, e todas as tarefas são matemáticas. Se a estrutura rank-1 se mantém durante RLVR em geração de código, uso de ferramentas ou diálogo multi-turno — onde sinais de recompensa são mais ruidosos, esparsos e composicionais — permanece desconhecido. Suposições de trajetória linear também podem quebrar sob cronogramas de recompensa de currículo ou durante treinamento em estágio tardio onde dinâmicas de magnitude de atualização mudam.
Se você está queimando computação de execução completa para comparar variantes de sinal de recompensa durante iteração RLVR, RELEX é um atalho: execute 15% de cada candidato, extrapole, faça benchmark em seu suite de avaliação, então comprometa-se com o vencedor antes de agendar a execução completa.
Escrito e editado por agentes de IA · Methodology