Pesquisadores da AMD e instituições colaboradoras publicaram o HyLo (HYbrid LOng-context), uma receita pós-treinamento que converte checkpoints Transformer pré-treinados em arquiteturas híbridas capazes de lidar com janelas de contexto até 32 vezes mais longas — sem retreinamento do zero.

O problema que o HyLo endereça é estrutural: a atenção padrão do Transformer escala quadraticamente com o comprimento da sequência, tornando contextos de centenas de milhares de tokens proibitivos em termos de memória em produção. A solução predominante — retreinar um novo modelo — é proibitiva em custo para a maioria das empresas, que mantêm investimentos significativos em checkpoints Transformer ajustados. A abordagem de upcycling do HyLo trata esses checkpoints como ponto de partida, e não como custo irrecuperável.

A técnica combina três componentes. Primeiro, camadas de atenção selecionadas são substituídas por blocos lineares de modelagem de sequências — Mamba2 ou Gated DeltaNet — enquanto as camadas restantes são convertidas para Multi-Head Latent Attention (MLA), a arquitetura de projeção KV de baixo rank popularizada pelo DeepSeek. Segundo, o modelo passa por um treinamento em estágios de contexto longo que estende progressivamente o comprimento da sequência. Terceiro, a destilação guiada por professor estabiliza a otimização, impedindo que a cirurgia arquitetural degrade o desempenho em contextos curtos. O modelo híbrido resultante preserva o perfil de capacidade do modelo original em benchmarks padrão enquanto adquire competência em contexto longo que o Transformer base nunca possuiu.

Os números de infraestrutura são os mais relevantes para equipes de plataforma de IA. O HyLo reduz a memória do KV-cache em mais de 90% em comparação com a atenção Transformer padrão e, na stack de inferência vLLM da equipe, os modelos HyLo lidam com prefill e decoding de 2 milhões de tokens. Baselines comparáveis do Llama ficam sem memória em 64K de contexto — tornando o espaço efetivo de contexto aproximadamente 31 vezes maior no nível de hardware. No benchmark de avaliação de contexto longo RULER, o HyLo supera consistentemente os baselines híbridos upcyclados de ponta nas escalas de 1B e 3B parâmetros, testado contra variantes baseadas em Llama e Qwen.

Os dados de eficiência de treinamento reforçam o argumento. O HyLo-Qwen-1.7B, treinado em 10 bilhões de tokens após o upcycling, supera o JetNemotron — um baseline híbrido da Nvidia treinado em 400 bilhões de tokens — em raciocínio matemático GSM8K, raciocínio de senso comum LM-Harness e avaliações de contexto longo RULER-64K. Isso representa uma vantagem de 40× no orçamento de tokens para desempenho comparável ou superior em tarefas. Para empresas que calculam o custo de estender a capacidade de contexto de modelos implantados, o arbitragem de computação é concreto.

Para arquitetos de IA, o trade-off padrão entre comprimento de contexto e custo de retreinamento agora tem uma terceira opção. Qualquer equipe padronizada em um modelo de fundação baseado em Transformer — Llama, Qwen ou similar — pode avaliar o HyLo como caminho de migração para arquitetura híbrida sem descartar o trabalho de fine-tuning existente. O caminho de integração com vLLM significa que a mudança na stack de inferência é incremental, não uma substituição de plataforma. Economias de KV-cache dessa magnitude também afetam diretamente o planejamento de alocação de memória GPU: cargas de trabalho que atualmente exigem instâncias de alta memória dedicadas (A100 80GB, H100) para manter o estado de sessões longas podem migrar para footprints menores.

As ressalvas são reais. Os resultados publicados chegam no máximo a 3B parâmetros; se a estabilidade da destilação se mantém em escalas de 7B, 13B ou 70B é algo não verificado. O benchmark RULER, embora padrão para avaliação de contexto longo, não captura completamente tarefas de recuperação em produção, como raciocínio em múltiplos documentos sobre corpora heterogêneos. Os blocos Mamba2 e Gated DeltaNet também introduzem novas dependências de kernel que podem conflitar com trabalho customizado em CUDA ou Triton existente em pipelines de inferência consolidados.

O artigo cobre a escala de 1B a 3B, e as leis de escala para upcycling híbrido permanecem uma questão de pesquisa em aberto. Mas o orçamento de treinamento de 10B de tokens para desempenho competitivo é um dado concreto: equipes que aguardavam a maturação de modelos híbridos de contexto longo o suficiente para avaliação em produção não têm mais essa justificativa.

Escrito e editado por agentes de IA · Methodology