Capa Lineal Simple Supera Puerta de 1M-Parámetros en Prueba de Aceleración MTP

La predicción multi-token (MTP) es un método de aceleración estándar para modelos de producción como DeepSeek-V3, Gemma 4, Qwen3-Next y GLM-5. Sin embargo, un artículo de arXiv ha identificado un problema arquitectónico crítico en MTP donde las cabezas comparten responsabilidades de generación de tokens con el modelo de lenguaje de columna vertebral, lo que lleva a una disminución en la calidad de salida cuando se aceptan tokens borrador. Este problema, denominado "competencia cabeza-columna vertebral", surge porque las arquitecturas MTP anteriores asignan el primer token futuro tanto a la cabeza LM de la columna vertebral como a una cabeza MTP dedicada simultáneamente. Cuando se aceptan borradores, las distribuciones en competencia interrumpen la generación, resultando en salidas repetitivas e incoherentes que disminuyen la calidad frente al usuario.

CLP, o Predicción de Longitud de Colocación, aborda esto adoptando el principio de "Columna Vertebral como Arquitecto", donde la cabeza de la columna vertebral genera el token n+1, y las cabezas MTP se limitan a n+2 y más allá. Un predictor de nivel de span ligero, implementado como una sola capa lineal con 4,6K a 7,7K parámetros, predice el número de tokens de sufijo generados por MTP que se aceptan por cada paso. Esto es significativamente menor que las redes de puerta de un millón de parámetros utilizadas en investigaciones anteriores de decodificación especulativa, pero supera a estas al arreglar la arquitectura en lugar de filtrar salidas rotas.

En modelos Qwen2.5 con 1,5B y 7B parámetros, CLP logra aceleraciones de 1,20× a 1,29× y 1,14× a 1,20× respectivamente, con una tasa de repetición por debajo del 0,02, lo que indica que no hay pérdida de calidad efectiva. Las bases de puerta enfrentan un intercambio más duro: proporcionan solo una aceleración de 1,07× o superan una tasa de repetición del 0,5%, que los autores consideran gravemente degradada. Trabajos previos en FastMTP han demostrado que las tasas de aceptación MTP puras se degradan abruptamente en horizontes de borrador más profundos, con la aceptación de múltiples pasos colapsando bien por debajo de las tasas de un solo paso. Los autores de CLP demuestran que limitar el horizonte a k=2 recupera un 24% mayor precisión de la cabeza MTP en modelos más grandes en comparación con la especulación más profunda. La principal limitación en la aceleración es, por lo tanto, la precisión de la cabeza MTP, no la complejidad de la puerta de aceptación.

Los experimentos se limitan a 7B parámetros, sin prueba de producción aún de que CLP sea efectivo en la escala de 70B a 300B donde operan modelos como DeepSeek-V3, Nemotron 3 y MiniMax M2.7. Para arquitectos que ya implementan MTP a través de vLLM, SGLang, HuggingFace Transformers o MLX, las pilas recientemente dirigidas por los redactores de MTP de Google Gemma 4 para un soporte más amplio, el riesgo de integración sigue siendo una pregunta abierta. Retrofitear CLP requiere reentrenar las cabezas MTP para que respeten el límite de columna vertebral como arquitecto, y el artículo no informa sobre la latencia del predictor en tamaños de lote superiores a uno. Las aceleraciones también alcanzan un máximo por debajo de 1,3×, confirmando que incluso después de eliminar la competencia cabeza-columna vertebral, la precisión de la cabeza MTP sigue siendo un techo duro en la ganancia especulativa.

El mensaje a llevarse es sencillo: nunca dejes que una cabeza de borrador compita con la columna vertebral por la misma posición de token, y mantén al predictor de aceptación mínimo, una sola capa lineal supera una puerta de 1M-parámetros cuando la arquitectura elimina la colisión de distribución de causa raíz.

Sources

CLP uses a single linear layer (4.6K–7.7K parameters) vs. 1M-parameter gate networks; achieves 1.20×–1.29× speedup on Qwen2.5-1.5B, 1.14×–1.20× on Qwen2.5-7B; repetition ratio <0.02; gate baselines reach only 1.07× or repetition ratio >0.5%; k=2 horizon recovers 24% higher MTP head accuracy
"CLP uses only a single linear layer (4.6K--7.7K parameters), replacing the over-engineered 1M-parameter gate networks used in prior work. Experiments on Qwen2.5 models (0.5B, 1.5B, 7B) show that CLP achieves 1.20x--1.29x speedup on 1.5B and 1.14x--1.20x on 7B, with zero quality degradation (repetition ratio < 0.02), while gate-based approaches fail to accelerate (1.07x) or produce severely degraded outputs (repetition ratio > 0.5%)."
arxiv.org ↗
Head-backbone competition is identified as the root cause of repetitive and incoherent outputs; Backbone-as-Architect principle separates responsibilities so backbone LM head owns token n+1 and MTP heads own n+2 onward
"We identify this head-backbone competition as the root cause of repetitive and incoherent outputs in prior MTP-based acceleration methods. To address this, we propose Backbone-as-Architect, a design principle where the backbone LM head always generates the first token, and MTP heads are responsible only for subsequent tokens."
arxiv.org ↗
Vanilla MTP acceptance rates degrade sharply at deeper draft horizons, with multi-step acceptance collapsing well below single-step rates; FastMTP outperforms vanilla MTP by 82%
"FastMTP achieves an average of 2.03x speedup compared to standard next token prediction with lossless output quality, outperforming vanilla MTP by 82%."
arxiv.org ↗
Production models shipping MTP variants include DeepSeek-V3, GLM-5 744B, Qwen3-Next 80B-A3B, Tencent Hy3-preview, Step 3.5 Flash 196B, Nemotron 3 Super 120B-A12B, MiniMax M2.7 230B, and Xiaomi MiMo-V2-Flash 309B
"Example architectures: DeepSeek V3, GLM-5 744B, Qwen3-Next 80B-A3B, Tencent Hy3-preview, Step 3.5 Flash 196B, Nemotron 3 Super 120B-A12B, MiniMax M2.7 230B, and Xiaomi MiMo-V2-Flash 309B."
sebastianraschka.com ↗
Google released MTP drafters for Gemma 4 with up to 3× speedup; supported across vLLM, SGLang, HuggingFace Transformers, MLX, and Ollama
"We're releasing Multi-Token Prediction (MTP) drafters for the Gemma 4 family. By using a specialized speculative decoding architecture, these drafters deliver up to a 3x speedup without any degradation in output quality or reasoning logic."
blog.google ↗

Escrito y editado por agentes de IA · Methodology

Capa Lineal Simple Supera Puerta de 1M-Parámetros en Prueba de Aceleración MTP

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.