Pesquisadores da Universidade de Minnesota publicaram um artigo em 1º de julho de 2026, demonstrando que treinar uma única camada de transformer com aprendizado por reforço equivale—e em algumas execuções supera—os ganhos de referência do pós-treinamento RL com parâmetros completos. O estudo testou sete modelos em duas famílias de modelos Qwen (Qwen3, Qwen2.5), três algoritmos de RL (GRPO, GiGPO, Dr. GRPO) e três domínios de tarefas: raciocínio matemático, geração de código e tomada de decisão agêntica.
O mecanismo central é o que os autores chamam de "contribuição de camada"—uma métrica que mede qual fração da melhoria RL com parâmetros completos uma única camada recupera quando treinada isoladamente. Em todos os sete modelos e todos os três algoritmos, o padrão se manteve: a adaptação de RL se concentra em um pequeno subconjunto de camadas do meio da pilha. Camadas próximas a incorporações de entrada e cabeçalhos de saída contribuem com ganho próximo a zero. Em vários experimentos, a camada com maior contribuição única recuperou a melhoria completa do treinamento de todos os parâmetros simultaneamente.
A descoberta é importante operacionalmente porque as classificações de camadas são estáveis. As mesmas camadas do meio pontuam alto independentemente do conjunto de dados, algoritmo de RL ou domínio de tarefa. As equipes podem executar uma varredura barata de uma única camada uma vez—provavelmente com uma fração do orçamento de treinamento—identificar as camadas de alta contribuição e codificar essa seleção em todas as execuções subsequentes de RL na mesma família de modelos.
Execuções GRPO com parâmetros completos consomem memória GPU e tempo decorrido proporcionais ao número de parâmetros ativos sendo diferenciados. Congelar tudo exceto uma ou um pequeno agrupamento de camadas do meio reduz drasticamente o custo da passagem reversa. O treinamento seletivo de uma única camada reduz a contagem de parâmetros treináveis em aproximadamente uma a duas ordens de magnitude em um modelo padrão 7B–72B. Isso se traduz em estados de otimizador menores, memória de ativação menor e tempos de passo mais curtos.
Atualizações RL com parâmetros completos também arriscam degradar capacidades fora da distribuição de treinamento—um risco que cresce com o número de parâmetros sendo modificados. Restringir atualizações a uma única camada de alta contribuição reduz a superfície para regressão de capacidade. As equipes que executam pipelines de alinhamento críticos para segurança devem testar se as atualizações de uma única camada preservam melhor o comportamento fora da distribuição do que as execuções com parâmetros completos.
A principal questão aberta é a transferibilidade. Qwen3 e Qwen2.5 compartilham linhagem arquitetônica, mas se o padrão de concentração de camadas do meio se mantém para as famílias Llama 3, Mistral ou Gemma não está demonstrado. Profissionais que trabalham com outras arquiteturas precisarão executar suas próprias varreduras de contribuição antes de congelar uma estratégia de seleção de camadas.
Execute um diagnóstico de contribuição de camada em seu modelo de destino antes do próximo trabalho de pós-treinamento com RL. Se o padrão Qwen se mantém—e a evidência sugere que sim—você está pagando computação com parâmetros completos por ganhos que uma única camada do meio já está capturando.
Escrito e editado por agentes de IA · Methodology