Una Capa Coincide con el Entrenamiento Completo de RL en Modelos Qwen

Un nuevo artículo de investigadores en [Institution] descubre que actualizar una sola capa de transformer durante el post-entrenamiento con RL puede igualar las ganancias de desempeño de actualizar todas las capas uniformemente. El descubrimiento tiene implicaciones inmediatas de costo para los equipos que ejecutan pipelines de alineación y ajuste de instrucciones: las actualizaciones selectivas de capas podrían reducir el consumo de computación en el post-entrenamiento hasta en un 50%.

Investigadores de la Universidad de Minnesota publicaron un artículo el 1 de julio de 2026, demostrando que entrenar una sola capa de transformer con aprendizaje por refuerzo coincide—y en algunas ejecuciones supera—las ganancias de referencia del post-entrenamiento RL con parámetros completos. El estudio probó siete modelos en dos familias de modelos Qwen (Qwen3, Qwen2.5), tres algoritmos de RL (GRPO, GiGPO, Dr. GRPO) y tres dominios de tareas: razonamiento matemático, generación de código y toma de decisiones de agentes.

El mecanismo central es lo que los autores llaman "contribución de capa"—una métrica que mide qué fracción de la mejora de RL con parámetros completos recupera una sola capa cuando se entrena de forma aislada. En los siete modelos y los tres algoritmos, el patrón se mantuvo: la adaptación de RL se concentra en un pequeño subconjunto de capas de la pila media. Las capas cerca de incrustaciones de entrada y cabezales de salida contribuyen con ganancia cercana a cero. En varios experimentos, la capa con mayor contribución individual recuperó la mejora completa del entrenamiento de cada parámetro simultáneamente.

El hallazgo es importante operacionalmente porque las clasificaciones de capas son estables. Las mismas capas medias tienen puntuaciones altas independientemente del conjunto de datos, algoritmo de RL o dominio de tarea. Los equipos pueden ejecutar un barrido económico de una sola capa una vez—probablemente con una fracción del presupuesto de entrenamiento—identificar las capas de alta contribución y codificar esa selección en cada ejecución posterior de RL en la misma familia de modelos.

Las ejecuciones GRPO con parámetros completos consumen memoria GPU y tiempo de reloj proporcionales a la cantidad de parámetros activos que se diferencian. Congelar todo excepto una o un pequeño grupo de capas medias reduce drásticamente el costo de la pasada hacia atrás. El entrenamiento selectivo de una sola capa reduce el conteo de parámetros entrenables en aproximadamente una a dos órdenes de magnitud en un modelo estándar 7B–72B. Esto se traduce en estados de optimizador más pequeños, memoria de activación más baja y tiempos de paso más cortos.

Las actualizaciones de RL con parámetros completos también corren el riesgo de degradar capacidades fuera de la distribución de entrenamiento—un riesgo que crece con la cantidad de parámetros que se modifican. Limitar las actualizaciones a una sola capa de alta contribución reduce el área de superficie para la regresión de capacidad. Los equipos que ejecutan pipelines de alineación críticos para la seguridad deben probar si las actualizaciones de una sola capa preservan mejor el comportamiento fuera de la distribución que las ejecuciones con parámetros completos.

La pregunta abierta principal es la transferibilidad. Qwen3 y Qwen2.5 comparten linaje arquitectónico, pero si el patrón de concentración de capas medias se mantiene para las familias Llama 3, Mistral o Gemma no está demostrado. Los profesionales que trabajan en otras arquitecturas necesitarán ejecutar sus propios barridos de contribución antes de congelar una estrategia de selección de capas.

Ejecute un diagnóstico de contribución de capa en su modelo de destino antes del siguiente trabajo de post-entrenamiento de RL. Si el patrón Qwen se mantiene—y la evidencia sugiere que sí—está pagando computación con parámetros completos por ganancias que una sola capa media ya está capturando.

Sources

Training a single transformer layer with RL can match or exceed full-parameter RL post-training across seven models, two Qwen model families, three RL algorithms, and three task domains
"training a single transformer layer can recover most of the gains achieved by full-parameter RL training, and in some cases even surpass it"
arxiv.org ↗
The paper introduces a 'layer contribution' metric measuring the fraction of full RL improvement recovered by training a single layer in isolation
"we introduce the quantity layer contribution, which measures the fraction of full RL improvement recovered by training a layer in isolation"
arxiv.org ↗
High-contribution layers concentrate in the middle of the transformer stack; layers near the input and output ends contribute substantially less
"high-contribution layers concentrate in the middle of the transformer stack, while layers near the input and output ends contribute substantially less"
arxiv.org ↗
Layer rankings remain strongly correlated across datasets, tasks, model families (Qwen3, Qwen2.5), and RL algorithms (GRPO, GiGPO, Dr. GRPO)
"The resulting layer rankings remain strongly correlated across datasets, tasks, model families, and RL algorithms"
arxiv.org ↗
The study covers seven models spanning Qwen3 and Qwen2.5 families, tested on mathematical reasoning, code generation, and agentic decision-making tasks
"Across seven models spanning two model families (Qwen3, Qwen2.5), three RL algorithms (GRPO, GiGPO, Dr. GRPO), and multiple task domains including mathematical reasoning, code generation, and agentic decision-making"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Una Capa Coincide con el Entrenamiento Completo de RL en Modelos Qwen

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.