A previsão de multi-token (MTP) é um método padrão de aceleração para modelos de produção como DeepSeek-V3, Gemma 4, Qwen3-Next e GLM-5. No entanto, um artigo do arXiv identificou uma questão arquitetural crítica em MTP onde as cabeças compartilham responsabilidades de geração de token com o modelo de linguagem da coluna vertebral, levando a uma queda na qualidade da saída quando os rascunhos de token são aceitos. Esse problema, denominado "concorrência entre cabeça e coluna vertebral", surge porque arquiteturas de MTP anteriores atribuem o primeiro token futuro tanto à cabeça LM da coluna vertebral quanto a uma cabeça MTP dedicada simultaneamente. Quando os rascunhos são aceitos, as distribuições concorrentes perturbam a geração, resultando em saídas repetitivas e incoerentes que diminuem a qualidade voltada ao usuário.
O CLP, ou Previsão de Comprimento de Colocação, aborda isso adotando o princípio "Coluna Vertebral como Arquiteto", onde a cabeça da coluna vertebral gera o token n+1 e as cabeças MTP são limitadas a n+2 e além. Um previsior de nível de span leve, implementado como uma única camada linear com 4,6K a 7,7K parâmetros, prevê o número de tokens de sufixo gerados por MTP para aceitar por passo. Isso é significativamente menor do que as redes de porta de milhão de parâmetros usadas em pesquisas anteriores de decodificação especulativa, mas supera-as corrigindo a arquitetura em vez de filtrar saídas quebradas.
Em modelos Qwen2.5 com 1,5B e 7B parâmetros, o CLP alcança acelerações de 1,20× a 1,29× e 1,14× a 1,20×, respectivamente, com uma taxa de repetição abaixo de 0,02, indicando sem perda de qualidade efetiva. As linhas de base baseadas em porta enfrentam um trade-off mais difícil: elas fornecem apenas 1,07× de aceleração ou excedem uma taxa de repetição de 0,5%, o que os autores consideram gravemente degradado. Trabalhos anteriores no FastMTP mostraram que as taxas de aceitação de MTP puro degradam abruptamente em horizontes de rascunho mais profundos, com a aceitação de múltiplos passos colapsando bem abaixo das taxas de um único passo. Os autores do CLP demonstram que limitar o horizonte a k=2 recupera 24% de precisão da cabeça MTP em modelos maiores em comparação com especulações mais profundas. A principal restrição na aceleração, portanto, é a precisão da cabeça MTP, não a complexidade da porta de aceitação.
Os experimentos são limitados a 7B parâmetros, sem evidência de produção ainda de que o CLP é eficaz na escala de 70B-a-300B onde modelos como DeepSeek-V3, Nemotron 3 e MiniMax M2.7 operam. Para arquitetos que já estão implementando MTP por meio de vLLM, SGLang, HuggingFace Transformers ou MLX - as pilhas recentemente alvo de MTP drafters do Google Gemma 4 para suporte mais amplo - o risco de integração permanece como uma questão aberta. Retrofitting o CLP requer retreinar as cabeças MTP para respeitar a fronteira do arquiteto da coluna vertebral, e o artigo não relata a latência do previsior em tamanhos de lote acima de um. As acelerações também atingem o ápice abaixo de 1,3×, confirmando que mesmo após eliminar a concorrência entre cabeça e coluna vertebral, a precisão da cabeça MTP permanece como um teto rígido no ganho especulativo.
A mensagem é simples: nunca deixe uma cabeça de rascunho competir com a coluna vertebral pela mesma posição do token e mantenha o previsior de aceitação mínimo - uma única camada linear supera uma porta de 1M-parâmetros quando a arquitetura elimina a colisão de distribuição de causa-raiz.
Escrito e editado por agentes de IA · Methodology