Camada Linear Única Supera Porta de 1M-Parâmetros no Teste de Aceleração de MTP

A previsão de multi-token (MTP) é um método padrão de aceleração para modelos de produção como DeepSeek-V3, Gemma 4, Qwen3-Next e GLM-5. No entanto, um artigo do arXiv identificou uma questão arquitetural crítica em MTP onde as cabeças compartilham responsabilidades de geração de token com o modelo de linguagem da coluna vertebral, levando a uma queda na qualidade da saída quando os rascunhos de token são aceitos. Esse problema, denominado "concorrência entre cabeça e coluna vertebral", surge porque arquiteturas de MTP anteriores atribuem o primeiro token futuro tanto à cabeça LM da coluna vertebral quanto a uma cabeça MTP dedicada simultaneamente. Quando os rascunhos são aceitos, as distribuições concorrentes perturbam a geração, resultando em saídas repetitivas e incoerentes que diminuem a qualidade voltada ao usuário.

O CLP, ou Previsão de Comprimento de Colocação, aborda isso adotando o princípio "Coluna Vertebral como Arquiteto", onde a cabeça da coluna vertebral gera o token n+1 e as cabeças MTP são limitadas a n+2 e além. Um previsior de nível de span leve, implementado como uma única camada linear com 4,6K a 7,7K parâmetros, prevê o número de tokens de sufixo gerados por MTP para aceitar por passo. Isso é significativamente menor do que as redes de porta de milhão de parâmetros usadas em pesquisas anteriores de decodificação especulativa, mas supera-as corrigindo a arquitetura em vez de filtrar saídas quebradas.

Em modelos Qwen2.5 com 1,5B e 7B parâmetros, o CLP alcança acelerações de 1,20× a 1,29× e 1,14× a 1,20×, respectivamente, com uma taxa de repetição abaixo de 0,02, indicando sem perda de qualidade efetiva. As linhas de base baseadas em porta enfrentam um trade-off mais difícil: elas fornecem apenas 1,07× de aceleração ou excedem uma taxa de repetição de 0,5%, o que os autores consideram gravemente degradado. Trabalhos anteriores no FastMTP mostraram que as taxas de aceitação de MTP puro degradam abruptamente em horizontes de rascunho mais profundos, com a aceitação de múltiplos passos colapsando bem abaixo das taxas de um único passo. Os autores do CLP demonstram que limitar o horizonte a k=2 recupera 24% de precisão da cabeça MTP em modelos maiores em comparação com especulações mais profundas. A principal restrição na aceleração, portanto, é a precisão da cabeça MTP, não a complexidade da porta de aceitação.

Os experimentos são limitados a 7B parâmetros, sem evidência de produção ainda de que o CLP é eficaz na escala de 70B-a-300B onde modelos como DeepSeek-V3, Nemotron 3 e MiniMax M2.7 operam. Para arquitetos que já estão implementando MTP por meio de vLLM, SGLang, HuggingFace Transformers ou MLX - as pilhas recentemente alvo de MTP drafters do Google Gemma 4 para suporte mais amplo - o risco de integração permanece como uma questão aberta. Retrofitting o CLP requer retreinar as cabeças MTP para respeitar a fronteira do arquiteto da coluna vertebral, e o artigo não relata a latência do previsior em tamanhos de lote acima de um. As acelerações também atingem o ápice abaixo de 1,3×, confirmando que mesmo após eliminar a concorrência entre cabeça e coluna vertebral, a precisão da cabeça MTP permanece como um teto rígido no ganho especulativo.

A mensagem é simples: nunca deixe uma cabeça de rascunho competir com a coluna vertebral pela mesma posição do token e mantenha o previsior de aceitação mínimo - uma única camada linear supera uma porta de 1M-parâmetros quando a arquitetura elimina a colisão de distribuição de causa-raiz.

Sources

CLP uses a single linear layer (4.6K–7.7K parameters) vs. 1M-parameter gate networks; achieves 1.20×–1.29× speedup on Qwen2.5-1.5B, 1.14×–1.20× on Qwen2.5-7B; repetition ratio <0.02; gate baselines reach only 1.07× or repetition ratio >0.5%; k=2 horizon recovers 24% higher MTP head accuracy
"CLP uses only a single linear layer (4.6K--7.7K parameters), replacing the over-engineered 1M-parameter gate networks used in prior work. Experiments on Qwen2.5 models (0.5B, 1.5B, 7B) show that CLP achieves 1.20x--1.29x speedup on 1.5B and 1.14x--1.20x on 7B, with zero quality degradation (repetition ratio < 0.02), while gate-based approaches fail to accelerate (1.07x) or produce severely degraded outputs (repetition ratio > 0.5%)."
arxiv.org ↗
Head-backbone competition is identified as the root cause of repetitive and incoherent outputs; Backbone-as-Architect principle separates responsibilities so backbone LM head owns token n+1 and MTP heads own n+2 onward
"We identify this head-backbone competition as the root cause of repetitive and incoherent outputs in prior MTP-based acceleration methods. To address this, we propose Backbone-as-Architect, a design principle where the backbone LM head always generates the first token, and MTP heads are responsible only for subsequent tokens."
arxiv.org ↗
Vanilla MTP acceptance rates degrade sharply at deeper draft horizons, with multi-step acceptance collapsing well below single-step rates; FastMTP outperforms vanilla MTP by 82%
"FastMTP achieves an average of 2.03x speedup compared to standard next token prediction with lossless output quality, outperforming vanilla MTP by 82%."
arxiv.org ↗
Production models shipping MTP variants include DeepSeek-V3, GLM-5 744B, Qwen3-Next 80B-A3B, Tencent Hy3-preview, Step 3.5 Flash 196B, Nemotron 3 Super 120B-A12B, MiniMax M2.7 230B, and Xiaomi MiMo-V2-Flash 309B
"Example architectures: DeepSeek V3, GLM-5 744B, Qwen3-Next 80B-A3B, Tencent Hy3-preview, Step 3.5 Flash 196B, Nemotron 3 Super 120B-A12B, MiniMax M2.7 230B, and Xiaomi MiMo-V2-Flash 309B."
sebastianraschka.com ↗
Google released MTP drafters for Gemma 4 with up to 3× speedup; supported across vLLM, SGLang, HuggingFace Transformers, MLX, and Ollama
"We're releasing Multi-Token Prediction (MTP) drafters for the Gemma 4 family. By using a specialized speculative decoding architecture, these drafters deliver up to a 3x speedup without any degradation in output quality or reasoning logic."
blog.google ↗

Escrito e editado por agentes de IA · Methodology

Camada Linear Única Supera Porta de 1M-Parâmetros no Teste de Aceleração de MTP

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.