RELEX reconstruye checkpoints RLVR a partir del 15% de los datos de entrenamiento

Un nuevo trabajo muestra que el aprendizaje por refuerzo a partir de recompensas verificables produce cambios de trayectoria de pesos extremadamente low-rank, con aproximaciones rank-1 capturando la mayoría de las ganancias de rendimiento downstream. Implicación: los equipos que ajustan modelos de razonamiento pueden predecir y comprimir actualizaciones RLVR, reduciendo la computación de entrenamiento y permitiendo iteraciones más rápidas en señales de recompensa.

El aprendizaje por refuerzo a partir de recompensas verificables (RLVR) — el paradigma impulsando la mayoría de las mejoras actuales de modelos de razonamiento — produce actualizaciones de pesos capturadas por una única dirección rank-1. Un nuevo artículo muestra que los equipos pueden reconstruir checkpoints de rendimiento casi completo a partir de apenas el 15% de la ejecución de entrenamiento, sin costo adicional de entrenamiento.

El artículo, "You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories," examina la geometría de matrices delta de parámetros durante RLVR. Cuando las actualizaciones de pesos se descomponen mediante SVD, el primer vector singular domina. La aproximación rank-1 del delta de parámetros captura la mayoría del rendimiento downstream de benchmark. La magnitud de esa proyección rank-1 crece aproximadamente linealmente con los pasos de entrenamiento — la trayectoria completa es predecible a partir de un prefijo corto.

Los autores construyen RELEX (REinforcement Learning EXtrapolation) basándose en este hallazgo. El pipeline: ejecutar una ventana de observación RLVR corta para recopilar checkpoints de pesos, estimar el subespacio rank-1 a partir de esos deltas, ajustar una regresión lineal sobre la trayectoria y extrapolar checkpoints futuros aritméticamente. Sin computación de gradiente, sin modelo aprendido, sin bucle de entrenamiento. El código está disponible en github.com/weizhepei/RELEX.

RELEX iguala o supera el entrenamiento RLVR completo tanto en tareas in-domain como out-of-domain en Qwen2.5-Math-1.5B, Qwen3-4B-Base y Qwen3-8B-Base, con ventanas de observación tan pequeñas como el 15% del total de pasos de entrenamiento. El rango de extrapolación es agresivo: observar los primeros 50 pasos de gradiente, extrapolar al paso 1000, y el checkpoint extrapolado iguala o supera el checkpoint entrenado hasta el paso 1000. Los factores de extrapolación alcanzan 10–20× más allá del prefijo observado con mejora continua de rendimiento. No se divulgan figuras de latencia, costo por token o GPU-hora.

Aumentar el subespacio a rank-2, rank-3 o superior no mejoró la precisión de extrapolación. Reemplazar la regresión lineal con un modelo de extrapolación no lineal también falló. Los autores interpretan ambos resultados como evidencia de un efecto de "denoising": proyectar actualizaciones al subespacio rank-1 elimina ruido de optimización estocástica de Adam, y ese ruido degrada la calidad del checkpoint extrapolado. La linealidad de la magnitud de trayectoria rank-1 es lo que hace que la extrapolación aritmética funcione.

El argumento mecanístico es plausible pero incompletamente verificado. El artículo no realiza ablación sobre la elección del optimizador, el calendario de tasa de aprendizaje o el tamaño de lote para aislar la hipótesis de eliminación de ruido. Separar estos asuntos importa si está ajustando un pipeline RLVR en producción donde el optimizador o el calendario difieren de la configuración del artículo.

La generalización fuera del razonamiento matemático no se ha probado. Las tres familias de modelos son variantes Qwen, y todas las tareas son matemáticas. Si la estructura rank-1 se mantiene durante RLVR en generación de código, uso de herramientas o diálogo multi-turno — donde las señales de recompensa son más ruidosas, escasas y compositivas — sigue siendo desconocido. Los supuestos de trayectoria lineal también pueden romperse bajo cronogramas de recompensa de currículo o durante entrenamiento en etapa tardía donde cambian dinámicas de magnitud de actualización.

Si está gastando computación de ejecución completa para comparar variantes de señal de recompensa durante iteración RLVR, RELEX es un atajo: ejecute el 15% de cada candidato, extrapole, compare en su suite de evaluación, luego comprométase con el ganador antes de programar la ejecución completa.

Sources

RLVR weight trajectories are extremely low-rank; rank-1 approximation of parameter deltas captures majority of downstream performance gains
"we find that the majority of downstream performance gains are captured by a rank-1 approximation of the parameter deltas, where the magnitude of this projection evolves near-linearly with training steps"
arxiv.org ↗
RELEX requires as few as 15% of full RLVR training steps to match or exceed full-run performance
"RELEX produces checkpoints that match or exceed RLVR performance on both in-domain and out-of-domain benchmarks, requiring as few as 15% steps of full RLVR training"
arxiv.org ↗
RELEX extrapolates 10–20× beyond the observed prefix; e.g., observe 50 steps and extrapolate to 1000 steps with continued improvement
"RELEX is able to extrapolate far beyond the observation window at no training cost, predicting checkpoints up to 10-20× beyond the observed prefix with continued improvement (e.g., observe only the first 50 steps and extrapolate to 1000 steps)"
arxiv.org ↗
Models evaluated: Qwen2.5-Math-1.5B, Qwen3-4B-Base, and Qwen3-8B-Base
"Across three models (i.e., Qwen2.5-Math-1.5B, Qwen3-4B-Base, and Qwen3-8B-Base)"
arxiv.org ↗
Neither increasing subspace rank beyond 1 nor using nonlinear modeling improved extrapolation results
"neither increasing the subspace rank nor employing non-linear modeling yields further gains in extrapolation"
arxiv.org ↗
RELEX's performance gains stem from a denoising effect: projecting updates onto the rank-1 subspace discards stochastic optimization noise
"RELEX's success stems from a 'denoising' effect: by projecting updates onto the rank-1 subspace, the model discards stochastic optimization noise that would otherwise degrade performance during extrapolation"
arxiv.org ↗
Code is available at github.com/weizhepei/RELEX
"Our code is available at https://github.com/weizhepei/RELEX"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

RELEX reconstruye checkpoints RLVR a partir del 15% de los datos de entrenamiento

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.