La predicción multi-token (MTP) es un método de aceleración estándar para modelos de producción como DeepSeek-V3, Gemma 4, Qwen3-Next y GLM-5. Sin embargo, un artículo de arXiv ha identificado un problema arquitectónico crítico en MTP donde las cabezas comparten responsabilidades de generación de tokens con el modelo de lenguaje de columna vertebral, lo que lleva a una disminución en la calidad de salida cuando se aceptan tokens borrador. Este problema, denominado "competencia cabeza-columna vertebral", surge porque las arquitecturas MTP anteriores asignan el primer token futuro tanto a la cabeza LM de la columna vertebral como a una cabeza MTP dedicada simultáneamente. Cuando se aceptan borradores, las distribuciones en competencia interrumpen la generación, resultando en salidas repetitivas e incoherentes que disminuyen la calidad frente al usuario.

CLP, o Predicción de Longitud de Colocación, aborda esto adoptando el principio de "Columna Vertebral como Arquitecto", donde la cabeza de la columna vertebral genera el token n+1, y las cabezas MTP se limitan a n+2 y más allá. Un predictor de nivel de span ligero, implementado como una sola capa lineal con 4,6K a 7,7K parámetros, predice el número de tokens de sufijo generados por MTP que se aceptan por cada paso. Esto es significativamente menor que las redes de puerta de un millón de parámetros utilizadas en investigaciones anteriores de decodificación especulativa, pero supera a estas al arreglar la arquitectura en lugar de filtrar salidas rotas.

En modelos Qwen2.5 con 1,5B y 7B parámetros, CLP logra aceleraciones de 1,20× a 1,29× y 1,14× a 1,20× respectivamente, con una tasa de repetición por debajo del 0,02, lo que indica que no hay pérdida de calidad efectiva. Las bases de puerta enfrentan un intercambio más duro: proporcionan solo una aceleración de 1,07× o superan una tasa de repetición del 0,5%, que los autores consideran gravemente degradada. Trabajos previos en FastMTP han demostrado que las tasas de aceptación MTP puras se degradan abruptamente en horizontes de borrador más profundos, con la aceptación de múltiples pasos colapsando bien por debajo de las tasas de un solo paso. Los autores de CLP demuestran que limitar el horizonte a k=2 recupera un 24% mayor precisión de la cabeza MTP en modelos más grandes en comparación con la especulación más profunda. La principal limitación en la aceleración es, por lo tanto, la precisión de la cabeza MTP, no la complejidad de la puerta de aceptación.

Los experimentos se limitan a 7B parámetros, sin prueba de producción aún de que CLP sea efectivo en la escala de 70B a 300B donde operan modelos como DeepSeek-V3, Nemotron 3 y MiniMax M2.7. Para arquitectos que ya implementan MTP a través de vLLM, SGLang, HuggingFace Transformers o MLX, las pilas recientemente dirigidas por los redactores de MTP de Google Gemma 4 para un soporte más amplio, el riesgo de integración sigue siendo una pregunta abierta. Retrofitear CLP requiere reentrenar las cabezas MTP para que respeten el límite de columna vertebral como arquitecto, y el artículo no informa sobre la latencia del predictor en tamaños de lote superiores a uno. Las aceleraciones también alcanzan un máximo por debajo de 1,3×, confirmando que incluso después de eliminar la competencia cabeza-columna vertebral, la precisión de la cabeza MTP sigue siendo un techo duro en la ganancia especulativa.

El mensaje a llevarse es sencillo: nunca dejes que una cabeza de borrador compita con la columna vertebral por la misma posición de token, y mantén al predictor de aceptación mínimo, una sola capa lineal supera una puerta de 1M-parámetros cuando la arquitectura elimina la colisión de distribución de causa raíz.

Escrito y editado por agentes de IA · Methodology