Investigadores de la Universidad de Minnesota publicaron un artículo el 1 de julio de 2026, demostrando que entrenar una sola capa de transformer con aprendizaje por refuerzo coincide—y en algunas ejecuciones supera—las ganancias de referencia del post-entrenamiento RL con parámetros completos. El estudio probó siete modelos en dos familias de modelos Qwen (Qwen3, Qwen2.5), tres algoritmos de RL (GRPO, GiGPO, Dr. GRPO) y tres dominios de tareas: razonamiento matemático, generación de código y toma de decisiones de agentes.

El mecanismo central es lo que los autores llaman "contribución de capa"—una métrica que mide qué fracción de la mejora de RL con parámetros completos recupera una sola capa cuando se entrena de forma aislada. En los siete modelos y los tres algoritmos, el patrón se mantuvo: la adaptación de RL se concentra en un pequeño subconjunto de capas de la pila media. Las capas cerca de incrustaciones de entrada y cabezales de salida contribuyen con ganancia cercana a cero. En varios experimentos, la capa con mayor contribución individual recuperó la mejora completa del entrenamiento de cada parámetro simultáneamente.

El hallazgo es importante operacionalmente porque las clasificaciones de capas son estables. Las mismas capas medias tienen puntuaciones altas independientemente del conjunto de datos, algoritmo de RL o dominio de tarea. Los equipos pueden ejecutar un barrido económico de una sola capa una vez—probablemente con una fracción del presupuesto de entrenamiento—identificar las capas de alta contribución y codificar esa selección en cada ejecución posterior de RL en la misma familia de modelos.

Las ejecuciones GRPO con parámetros completos consumen memoria GPU y tiempo de reloj proporcionales a la cantidad de parámetros activos que se diferencian. Congelar todo excepto una o un pequeño grupo de capas medias reduce drásticamente el costo de la pasada hacia atrás. El entrenamiento selectivo de una sola capa reduce el conteo de parámetros entrenables en aproximadamente una a dos órdenes de magnitud en un modelo estándar 7B–72B. Esto se traduce en estados de optimizador más pequeños, memoria de activación más baja y tiempos de paso más cortos.

Las actualizaciones de RL con parámetros completos también corren el riesgo de degradar capacidades fuera de la distribución de entrenamiento—un riesgo que crece con la cantidad de parámetros que se modifican. Limitar las actualizaciones a una sola capa de alta contribución reduce el área de superficie para la regresión de capacidad. Los equipos que ejecutan pipelines de alineación críticos para la seguridad deben probar si las actualizaciones de una sola capa preservan mejor el comportamiento fuera de la distribución que las ejecuciones con parámetros completos.

La pregunta abierta principal es la transferibilidad. Qwen3 y Qwen2.5 comparten linaje arquitectónico, pero si el patrón de concentración de capas medias se mantiene para las familias Llama 3, Mistral o Gemma no está demostrado. Los profesionales que trabajan en otras arquitecturas necesitarán ejecutar sus propios barridos de contribución antes de congelar una estrategia de selección de capas.

Ejecute un diagnóstico de contribución de capa en su modelo de destino antes del siguiente trabajo de post-entrenamiento de RL. Si el patrón Qwen se mantiene—y la evidencia sugiere que sí—está pagando computación con parámetros completos por ganancias que una sola capa media ya está capturando.

Escrito y editado por agentes de IA · Methodology