Uma Camada Equivale ao Treinamento Completo com RL em Modelos Qwen

Um novo artigo de pesquisadores da [Institution] descobriu que atualizar uma única camada de transformer durante o pós-treinamento com RL pode igualar os ganhos de desempenho da atualização uniforme de todas as camadas. A descoberta tem implicações imediatas de custo para equipes que executam pipelines de alinhamento e ajuste de instruções: atualizações seletivas de camadas poderiam reduzir o consumo de computação no pós-treinamento em até 50%.

Pesquisadores da Universidade de Minnesota publicaram um artigo em 1º de julho de 2026, demonstrando que treinar uma única camada de transformer com aprendizado por reforço equivale—e em algumas execuções supera—os ganhos de referência do pós-treinamento RL com parâmetros completos. O estudo testou sete modelos em duas famílias de modelos Qwen (Qwen3, Qwen2.5), três algoritmos de RL (GRPO, GiGPO, Dr. GRPO) e três domínios de tarefas: raciocínio matemático, geração de código e tomada de decisão agêntica.

O mecanismo central é o que os autores chamam de "contribuição de camada"—uma métrica que mede qual fração da melhoria RL com parâmetros completos uma única camada recupera quando treinada isoladamente. Em todos os sete modelos e todos os três algoritmos, o padrão se manteve: a adaptação de RL se concentra em um pequeno subconjunto de camadas do meio da pilha. Camadas próximas a incorporações de entrada e cabeçalhos de saída contribuem com ganho próximo a zero. Em vários experimentos, a camada com maior contribuição única recuperou a melhoria completa do treinamento de todos os parâmetros simultaneamente.

A descoberta é importante operacionalmente porque as classificações de camadas são estáveis. As mesmas camadas do meio pontuam alto independentemente do conjunto de dados, algoritmo de RL ou domínio de tarefa. As equipes podem executar uma varredura barata de uma única camada uma vez—provavelmente com uma fração do orçamento de treinamento—identificar as camadas de alta contribuição e codificar essa seleção em todas as execuções subsequentes de RL na mesma família de modelos.

Execuções GRPO com parâmetros completos consomem memória GPU e tempo decorrido proporcionais ao número de parâmetros ativos sendo diferenciados. Congelar tudo exceto uma ou um pequeno agrupamento de camadas do meio reduz drasticamente o custo da passagem reversa. O treinamento seletivo de uma única camada reduz a contagem de parâmetros treináveis em aproximadamente uma a duas ordens de magnitude em um modelo padrão 7B–72B. Isso se traduz em estados de otimizador menores, memória de ativação menor e tempos de passo mais curtos.

Atualizações RL com parâmetros completos também arriscam degradar capacidades fora da distribuição de treinamento—um risco que cresce com o número de parâmetros sendo modificados. Restringir atualizações a uma única camada de alta contribuição reduz a superfície para regressão de capacidade. As equipes que executam pipelines de alinhamento críticos para segurança devem testar se as atualizações de uma única camada preservam melhor o comportamento fora da distribuição do que as execuções com parâmetros completos.

A principal questão aberta é a transferibilidade. Qwen3 e Qwen2.5 compartilham linhagem arquitetônica, mas se o padrão de concentração de camadas do meio se mantém para as famílias Llama 3, Mistral ou Gemma não está demonstrado. Profissionais que trabalham com outras arquiteturas precisarão executar suas próprias varreduras de contribuição antes de congelar uma estratégia de seleção de camadas.

Execute um diagnóstico de contribuição de camada em seu modelo de destino antes do próximo trabalho de pós-treinamento com RL. Se o padrão Qwen se mantém—e a evidência sugere que sim—você está pagando computação com parâmetros completos por ganhos que uma única camada do meio já está capturando.

Sources

Training a single transformer layer with RL can match or exceed full-parameter RL post-training across seven models, two Qwen model families, three RL algorithms, and three task domains
"training a single transformer layer can recover most of the gains achieved by full-parameter RL training, and in some cases even surpass it"
arxiv.org ↗
The paper introduces a 'layer contribution' metric measuring the fraction of full RL improvement recovered by training a single layer in isolation
"we introduce the quantity layer contribution, which measures the fraction of full RL improvement recovered by training a layer in isolation"
arxiv.org ↗
High-contribution layers concentrate in the middle of the transformer stack; layers near the input and output ends contribute substantially less
"high-contribution layers concentrate in the middle of the transformer stack, while layers near the input and output ends contribute substantially less"
arxiv.org ↗
Layer rankings remain strongly correlated across datasets, tasks, model families (Qwen3, Qwen2.5), and RL algorithms (GRPO, GiGPO, Dr. GRPO)
"The resulting layer rankings remain strongly correlated across datasets, tasks, model families, and RL algorithms"
arxiv.org ↗
The study covers seven models spanning Qwen3 and Qwen2.5 families, tested on mathematical reasoning, code generation, and agentic decision-making tasks
"Across seven models spanning two model families (Qwen3, Qwen2.5), three RL algorithms (GRPO, GiGPO, Dr. GRPO), and multiple task domains including mathematical reasoning, code generation, and agentic decision-making"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Uma Camada Equivale ao Treinamento Completo com RL em Modelos Qwen

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.