AMD HyLo Converte Checkpoints Transformer para Contexto 32x Mais Longo Sem Retreinamento

Uma nova técnica chamada HyLo (HYbrid LOng-context) converte LLMs Transformer pré-treinados em arquiteturas híbridas que combinam blocos lineares eficientes de modelagem de sequências com camadas de atenção padrão — sem retreinamento do zero — preservando a qualidade em contextos curtos e ampliando dramaticamente a capacidade em contextos longos. A abordagem é diretamente relevante para empresas que investiram em checkpoints Transformer ajustados e desejam janelas de contexto estendidas sem arcar com o custo de um pré-treinamento completo. À medida que modelos híbridos (Mamba, RWKV, variantes SSM) ganham tração em produção, HyLo oferece um caminho prático de migração para organizações padronizadas em implantações baseadas em Transformer.

Pesquisadores da AMD e instituições colaboradoras publicaram o HyLo (HYbrid LOng-context), uma receita pós-treinamento que converte checkpoints Transformer pré-treinados em arquiteturas híbridas capazes de lidar com janelas de contexto até 32 vezes mais longas — sem retreinamento do zero.

O problema que o HyLo endereça é estrutural: a atenção padrão do Transformer escala quadraticamente com o comprimento da sequência, tornando contextos de centenas de milhares de tokens proibitivos em termos de memória em produção. A solução predominante — retreinar um novo modelo — é proibitiva em custo para a maioria das empresas, que mantêm investimentos significativos em checkpoints Transformer ajustados. A abordagem de upcycling do HyLo trata esses checkpoints como ponto de partida, e não como custo irrecuperável.

A técnica combina três componentes. Primeiro, camadas de atenção selecionadas são substituídas por blocos lineares de modelagem de sequências — Mamba2 ou Gated DeltaNet — enquanto as camadas restantes são convertidas para Multi-Head Latent Attention (MLA), a arquitetura de projeção KV de baixo rank popularizada pelo DeepSeek. Segundo, o modelo passa por um treinamento em estágios de contexto longo que estende progressivamente o comprimento da sequência. Terceiro, a destilação guiada por professor estabiliza a otimização, impedindo que a cirurgia arquitetural degrade o desempenho em contextos curtos. O modelo híbrido resultante preserva o perfil de capacidade do modelo original em benchmarks padrão enquanto adquire competência em contexto longo que o Transformer base nunca possuiu.

Os números de infraestrutura são os mais relevantes para equipes de plataforma de IA. O HyLo reduz a memória do KV-cache em mais de 90% em comparação com a atenção Transformer padrão e, na stack de inferência vLLM da equipe, os modelos HyLo lidam com prefill e decoding de 2 milhões de tokens. Baselines comparáveis do Llama ficam sem memória em 64K de contexto — tornando o espaço efetivo de contexto aproximadamente 31 vezes maior no nível de hardware. No benchmark de avaliação de contexto longo RULER, o HyLo supera consistentemente os baselines híbridos upcyclados de ponta nas escalas de 1B e 3B parâmetros, testado contra variantes baseadas em Llama e Qwen.

Os dados de eficiência de treinamento reforçam o argumento. O HyLo-Qwen-1.7B, treinado em 10 bilhões de tokens após o upcycling, supera o JetNemotron — um baseline híbrido da Nvidia treinado em 400 bilhões de tokens — em raciocínio matemático GSM8K, raciocínio de senso comum LM-Harness e avaliações de contexto longo RULER-64K. Isso representa uma vantagem de 40× no orçamento de tokens para desempenho comparável ou superior em tarefas. Para empresas que calculam o custo de estender a capacidade de contexto de modelos implantados, o arbitragem de computação é concreto.

Para arquitetos de IA, o trade-off padrão entre comprimento de contexto e custo de retreinamento agora tem uma terceira opção. Qualquer equipe padronizada em um modelo de fundação baseado em Transformer — Llama, Qwen ou similar — pode avaliar o HyLo como caminho de migração para arquitetura híbrida sem descartar o trabalho de fine-tuning existente. O caminho de integração com vLLM significa que a mudança na stack de inferência é incremental, não uma substituição de plataforma. Economias de KV-cache dessa magnitude também afetam diretamente o planejamento de alocação de memória GPU: cargas de trabalho que atualmente exigem instâncias de alta memória dedicadas (A100 80GB, H100) para manter o estado de sessões longas podem migrar para footprints menores.

As ressalvas são reais. Os resultados publicados chegam no máximo a 3B parâmetros; se a estabilidade da destilação se mantém em escalas de 7B, 13B ou 70B é algo não verificado. O benchmark RULER, embora padrão para avaliação de contexto longo, não captura completamente tarefas de recuperação em produção, como raciocínio em múltiplos documentos sobre corpora heterogêneos. Os blocos Mamba2 e Gated DeltaNet também introduzem novas dependências de kernel que podem conflitar com trabalho customizado em CUDA ou Triton existente em pipelines de inferência consolidados.

O artigo cobre a escala de 1B a 3B, e as leis de escala para upcycling híbrido permanecem uma questão de pesquisa em aberto. Mas o orçamento de treinamento de 10B de tokens para desempenho competitivo é um dado concreto: equipes que aguardavam a maturação de modelos híbridos de contexto longo o suficiente para avaliação em produção não têm mais essa justificativa.

Sources

HyLo extends usable context length by up to 32× through efficient post-training
"HyLo extends usable context length by up to 32× through efficient post-training"
arxiv.org ↗
HyLo reduces KV-cache memory by more than 90%
"reduces KV-cache memory by more than 90%"
arxiv.org ↗
HyLo enables up to 2M-token prefill and decoding in vLLM inference stack
"enabling up to 2M-token prefill and decoding in our vLLM inference stack"
arxiv.org ↗
Comparable Llama baselines run out of memory beyond 64K context
"while comparable Llama baselines run out of memory beyond 64K context"
arxiv.org ↗
HyLo combines Multi-Head Latent Attention (MLA) and linear blocks (Mamba2 or Gated DeltaNet), with staged long-context training and teacher-guided distillation
"combines architectural adaptation with efficient Transformer blocks, Multi-Head Latent Attention (MLA), and linear blocks (Mamba2 or Gated DeltaNet), together with staged long-context training and teacher-guided distillation for stable optimization"
arxiv.org ↗
HyLo-Qwen-1.7B trained on only 10B tokens significantly outperforms JetNemotron (trained on 400B tokens) on GSM8K, LM-Harness commonsense reasoning, and RULER-64K
"HyLo-Qwen-1.7B trained on only 10B tokens significantly outperforms JetNemotron (trained on 400B tokens) on GSM8K, Lm-Harness common sense reasoning and RULER-64K"
arxiv.org ↗
HyLo outperforms state-of-the-art upcycled hybrid baselines on long-context evaluations such as RULER, tested at 1B and 3B scale on Llama- and Qwen-based variants
"Across 1B- and 3B-scale settings (Llama- and Qwen-based variants), HyLo delivers consistently strong short- and long-context performance and significantly outperforms state-of-the-art upcycled hybrid baselines on long-context evaluations such as RULER"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

AMD HyLo Converte Checkpoints Transformer para Contexto 32x Mais Longo Sem Retreinamento

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.