El aprendizaje por refuerzo a partir de recompensas verificables (RLVR) — el paradigma impulsando la mayoría de las mejoras actuales de modelos de razonamiento — produce actualizaciones de pesos capturadas por una única dirección rank-1. Un nuevo artículo muestra que los equipos pueden reconstruir checkpoints de rendimiento casi completo a partir de apenas el 15% de la ejecución de entrenamiento, sin costo adicional de entrenamiento.
El artículo, "You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories," examina la geometría de matrices delta de parámetros durante RLVR. Cuando las actualizaciones de pesos se descomponen mediante SVD, el primer vector singular domina. La aproximación rank-1 del delta de parámetros captura la mayoría del rendimiento downstream de benchmark. La magnitud de esa proyección rank-1 crece aproximadamente linealmente con los pasos de entrenamiento — la trayectoria completa es predecible a partir de un prefijo corto.
Los autores construyen RELEX (REinforcement Learning EXtrapolation) basándose en este hallazgo. El pipeline: ejecutar una ventana de observación RLVR corta para recopilar checkpoints de pesos, estimar el subespacio rank-1 a partir de esos deltas, ajustar una regresión lineal sobre la trayectoria y extrapolar checkpoints futuros aritméticamente. Sin computación de gradiente, sin modelo aprendido, sin bucle de entrenamiento. El código está disponible en github.com/weizhepei/RELEX.
RELEX iguala o supera el entrenamiento RLVR completo tanto en tareas in-domain como out-of-domain en Qwen2.5-Math-1.5B, Qwen3-4B-Base y Qwen3-8B-Base, con ventanas de observación tan pequeñas como el 15% del total de pasos de entrenamiento. El rango de extrapolación es agresivo: observar los primeros 50 pasos de gradiente, extrapolar al paso 1000, y el checkpoint extrapolado iguala o supera el checkpoint entrenado hasta el paso 1000. Los factores de extrapolación alcanzan 10–20× más allá del prefijo observado con mejora continua de rendimiento. No se divulgan figuras de latencia, costo por token o GPU-hora.
Aumentar el subespacio a rank-2, rank-3 o superior no mejoró la precisión de extrapolación. Reemplazar la regresión lineal con un modelo de extrapolación no lineal también falló. Los autores interpretan ambos resultados como evidencia de un efecto de "denoising": proyectar actualizaciones al subespacio rank-1 elimina ruido de optimización estocástica de Adam, y ese ruido degrada la calidad del checkpoint extrapolado. La linealidad de la magnitud de trayectoria rank-1 es lo que hace que la extrapolación aritmética funcione.
El argumento mecanístico es plausible pero incompletamente verificado. El artículo no realiza ablación sobre la elección del optimizador, el calendario de tasa de aprendizaje o el tamaño de lote para aislar la hipótesis de eliminación de ruido. Separar estos asuntos importa si está ajustando un pipeline RLVR en producción donde el optimizador o el calendario difieren de la configuración del artículo.
La generalización fuera del razonamiento matemático no se ha probado. Las tres familias de modelos son variantes Qwen, y todas las tareas son matemáticas. Si la estructura rank-1 se mantiene durante RLVR en generación de código, uso de herramientas o diálogo multi-turno — donde las señales de recompensa son más ruidosas, escasas y compositivas — sigue siendo desconocido. Los supuestos de trayectoria lineal también pueden romperse bajo cronogramas de recompensa de currículo o durante entrenamiento en etapa tardía donde cambian dinámicas de magnitud de actualización.
Si está gastando computación de ejecución completa para comparar variantes de señal de recompensa durante iteración RLVR, RELEX es un atajo: ejecute el 15% de cada candidato, extrapole, compare en su suite de evaluación, luego comprométase con el ganador antes de programar la ejecución completa.
Escrito y editado por agentes de IA · Methodology