AMD HyLo Convierte Checkpoints Transformer a Contexto 32x Más Largo Sin Reentrenamiento

Una nueva técnica llamada HyLo (HYbrid LOng-context) convierte LLMs Transformer preentrenados en arquitecturas híbridas que combinan bloques lineales eficientes de modelado de secuencias con capas de atención estándar — sin reentrenamiento desde cero — preservando la calidad en contextos cortos y ampliando drásticamente la capacidad en contextos largos. El enfoque es directamente relevante para empresas que han invertido en checkpoints Transformer ajustados y desean ventanas de contexto extendidas sin asumir el costo de un preentrenamiento completo. A medida que los modelos híbridos (Mamba, RWKV, variantes SSM) ganan tracción en producción, HyLo ofrece un camino práctico de migración para organizaciones estandarizadas en implementaciones basadas en Transformer.

Investigadores de AMD e instituciones colaboradoras publicaron HyLo (HYbrid LOng-context), una receta post-entrenamiento que convierte checkpoints Transformer preentrenados en arquitecturas híbridas capaces de manejar ventanas de contexto hasta 32 veces más largas — sin reentrenamiento desde cero.

El problema que HyLo aborda es estructural: la atención estándar de Transformer escala cuadráticamente con la longitud de la secuencia, lo que hace que los contextos de cientos de miles de tokens sean prohibitivos en memoria para producción. La solución dominante — reentrenar un nuevo modelo — es prohibitiva en costo para la mayoría de las empresas, que mantienen inversiones significativas en checkpoints Transformer ajustados. El enfoque de upcycling de HyLo trata esos checkpoints como punto de partida, no como costo irrecuperable.

La técnica combina tres componentes. Primero, capas de atención seleccionadas se reemplazan con bloques lineales de modelado de secuencias — Mamba2 o Gated DeltaNet — mientras que las capas restantes se convierten a Multi-Head Latent Attention (MLA), la arquitectura de proyección KV de bajo rango popularizada por DeepSeek. Segundo, el modelo pasa por un entrenamiento por etapas de contexto largo que extiende progresivamente la longitud de la secuencia. Tercero, la destilación guiada por el modelo docente estabiliza la optimización, evitando que la cirugía arquitectónica degrade el rendimiento en contextos cortos. El modelo híbrido resultante conserva el perfil de capacidad del modelo original en benchmarks estándar mientras adquiere competencia en contexto largo que el Transformer base nunca tuvo.

Los números de infraestructura son los más relevantes para los equipos de plataformas de IA. HyLo reduce la memoria del KV-cache en más del 90% en comparación con la atención Transformer estándar y, en el stack de inferencia vLLM del equipo, los modelos HyLo manejan prefill y decodificación de 2 millones de tokens. Las baselines comparables de Llama se quedan sin memoria con 64K de contexto — lo que hace que el espacio de contexto efectivo sea aproximadamente 31 veces mayor a nivel de hardware. En el benchmark de evaluación de contexto largo RULER, HyLo supera consistentemente a las baselines híbridas upcycladas de última generación en escalas de 1B y 3B parámetros, evaluado contra variantes basadas en Llama y Qwen.

Los datos de eficiencia de entrenamiento refuerzan el argumento. HyLo-Qwen-1.7B, entrenado en 10 mil millones de tokens tras el upcycling, supera a JetNemotron — una baseline híbrida de Nvidia entrenada en 400 mil millones de tokens — en razonamiento matemático GSM8K, razonamiento de sentido común LM-Harness y evaluaciones de contexto largo RULER-64K. Eso representa una ventaja de 40× en el presupuesto de tokens para un rendimiento comparable o superior en tareas. Para las empresas que calculan el costo de extender la capacidad de contexto de los modelos implementados, el arbitraje de cómputo es concreto.

Para los arquitectos de IA, el trade-off estándar entre longitud de contexto y costo de reentrenamiento ahora tiene una tercera opción. Cualquier equipo estandarizado en un modelo de fundación basado en Transformer — Llama, Qwen o similar — puede evaluar HyLo como camino de migración a arquitectura híbrida sin descartar el trabajo de fine-tuning existente. El camino de integración con vLLM significa que el cambio en el stack de inferencia es incremental, no un reemplazo de plataforma. Los ahorros de KV-cache de esta magnitud también afectan directamente la planificación de asignación de memoria GPU: las cargas de trabajo que actualmente requieren instancias de alta memoria dedicadas (A100 80GB, H100) para mantener el estado de sesiones largas pueden migrar a footprints más pequeños.

Las advertencias son reales. Los resultados publicados llegan hasta 3B parámetros; si la estabilidad de la destilación se mantiene en escalas de 7B, 13B o 70B no está verificado. El benchmark RULER, aunque estándar para evaluación de contexto largo, no captura completamente las tareas de recuperación en producción, como el razonamiento sobre múltiples documentos en corpora heterogéneos. Los bloques Mamba2 y Gated DeltaNet también introducen nuevas dependencias de kernel que pueden entrar en conflicto con trabajo personalizado en CUDA o Triton existente en pipelines de inferencia consolidados.

El artículo cubre la escala de 1B a 3B, y las leyes de escala para upcycling híbrido siguen siendo una pregunta de investigación abierta. Pero el presupuesto de entrenamiento de 10B de tokens para un rendimiento competitivo es un dato concreto: los equipos que esperaban que los modelos híbridos de contexto largo maduraran lo suficiente para su evaluación en producción ya no tienen esa excusa.

Sources

HyLo extends usable context length by up to 32× through efficient post-training
"HyLo extends usable context length by up to 32× through efficient post-training"
arxiv.org ↗
HyLo reduces KV-cache memory by more than 90%
"reduces KV-cache memory by more than 90%"
arxiv.org ↗
HyLo enables up to 2M-token prefill and decoding in vLLM inference stack
"enabling up to 2M-token prefill and decoding in our vLLM inference stack"
arxiv.org ↗
Comparable Llama baselines run out of memory beyond 64K context
"while comparable Llama baselines run out of memory beyond 64K context"
arxiv.org ↗
HyLo combines Multi-Head Latent Attention (MLA) and linear blocks (Mamba2 or Gated DeltaNet), with staged long-context training and teacher-guided distillation
"combines architectural adaptation with efficient Transformer blocks, Multi-Head Latent Attention (MLA), and linear blocks (Mamba2 or Gated DeltaNet), together with staged long-context training and teacher-guided distillation for stable optimization"
arxiv.org ↗
HyLo-Qwen-1.7B trained on only 10B tokens significantly outperforms JetNemotron (trained on 400B tokens) on GSM8K, LM-Harness commonsense reasoning, and RULER-64K
"HyLo-Qwen-1.7B trained on only 10B tokens significantly outperforms JetNemotron (trained on 400B tokens) on GSM8K, Lm-Harness common sense reasoning and RULER-64K"
arxiv.org ↗
HyLo outperforms state-of-the-art upcycled hybrid baselines on long-context evaluations such as RULER, tested at 1B and 3B scale on Llama- and Qwen-based variants
"Across 1B- and 3B-scale settings (Llama- and Qwen-based variants), HyLo delivers consistently strong short- and long-context performance and significantly outperforms state-of-the-art upcycled hybrid baselines on long-context evaluations such as RULER"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

AMD HyLo Convierte Checkpoints Transformer a Contexto 32x Más Largo Sin Reentrenamiento

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.