El ACoT de IBM Reduce los Tokens de Razonamiento 11,6x Sin Pérdida de Precisión

Investigadores de IBM han publicado Abstract Chain-of-Thought (ACoT), un método de post-entrenamiento que reemplaza cadenas de razonamiento en lenguaje natural con secuencias cortas de tokens latentes discretos. La técnica reduce los tokens de razonamiento hasta 11,6× mientras mantiene la precisión del chain-of-thought estándar en razonamiento matemático, seguimiento de instrucciones y benchmarks de múltiples saltos.

El problema central que ACoT aborda es el costo de tokens de salida. El CoT estándar obliga al modelo a narrar cada paso de razonamiento en lenguaje natural antes de producir una respuesta — útil para depuración, costoso a escala. Enfoques anteriores de razonamiento latente usaban representaciones vectoriales continuas para comprimir el razonamiento, pero esos métodos tuvieron consistentemente un desempeño inferior al CoT verbal en tareas complejas. ACoT toma un camino distinto: tokens "abstractos" discretos extraídos de un vocabulario reservado que el modelo nunca encontró durante el preentrenamiento.

El entrenamiento se desarrolla en dos etapas. Un calentamiento al estilo de iteración de política alterna entre ajuste fino supervisado — enmascarando y comprimiendo un CoT verbal completo para forzar la compresión — y autodestilación, donde el modelo aprende a generar tokens abstractos a partir del prompt mediante decodificación restringida contra un codebook aprendido. Una vez que el calentamiento se estabiliza, el equipo aplica aprendizaje por refuerzo con arranque en caliente, restringido al vocabulario de tokens abstractos, para optimizar la recompensa de la tarea final. No se realizan cambios en la arquitectura subyacente del modelo; todas las modificaciones permanecen dentro del régimen de post-entrenamiento.

El resultado se generaliza entre familias de modelos. Los autores reportan un desempeño comparable en benchmarks de razonamiento matemático, seguimiento de instrucciones y razonamiento de múltiples saltos frente a baselines de CoT verbal y enfoques de razonamiento latente continuo — reduciendo la longitud de generación hasta 11,6×. Para cargas de trabajo empresariales facturadas por token de salida, esa tasa de compresión se traduce directamente en reducción de costos: un pipeline que consume 100 millones de tokens de razonamiento por día podría caer por debajo de 9 millones sin reentrenar el modelo base ni redirigir el tráfico a una arquitectura más pequeña y débil.

Las ganancias de eficiencia conllevan una compensación que los arquitectos empresariales deben monitorear. Los tokens abstractos no contienen contenido semántico legible por humanos o herramientas externas de monitoreo. Los equipos que dependen de los borradores de CoT para auditabilidad, registro de cumplimiento o extracción de justificaciones necesitarán mecanismos separados. ACoT optimiza el throughput, no la transparencia.

El vocabulario de tokens abstractos desarrolla una distribución de frecuencia en ley de potencia a lo largo de las fases de entrenamiento, reflejando la estructura estadística del lenguaje natural. Los autores interpretan esto como evidencia de que el modelo está aprendiendo un lenguaje de razonamiento comprimido genuino, y no colapsando hacia una codificación degenerada. Los codebooks degenerados fallan con entradas fuera de la distribución; la distribución en ley de potencia sugiere una reutilización robusta y estructurada — una señal significativa para la confiabilidad en producción.

La adopción empresarial requiere infraestructura de ajuste fino pero no cambios en el hardware de servicio ni en los pesos del modelo base. ACoT se aplica en principio a cualquier modelo de pesos abiertos suficientemente capaz que una organización ya opere. El requisito de decodificación restringida añade complejidad de implementación — los motores de inferencia deben imponer restricciones de vocabulario en el momento de la generación — pero deja la pila de servicio por lo demás intacta. Para equipos que ejecutan cargas de trabajo de razonamiento a gran escala en modelos abiertos o propietarios, la técnica es una adición creíble a la pila de optimización de inferencia.

Reducir el conteo de tokens de razonamiento en un orden de magnitud sin modificar el modelo base reconfigura la economía de la inferencia — e IBM ha publicado la receta.

Sources

ACoT achieves up to 11.6× fewer reasoning tokens
"Abstract-CoT achieves up to 11.6× fewer reasoning tokens while demonstrating comparable performance across mathematical reasoning, instruction-following, and multi-hop reasoning"
arxiv.org ↗
ACoT demonstrates comparable performance on mathematical reasoning, instruction-following, and multi-hop reasoning benchmarks
"demonstrating comparable performance across mathematical reasoning, instruction-following, and multi-hop reasoning"
arxiv.org ↗
ACoT generalizes across language model families
"generalizes across language model families"
arxiv.org ↗
ACoT uses a policy iteration-style warm-up loop alternating between bottlenecking from verbal CoT via masking and SFT, and self-distillation via constrained decoding with a codebook
"a policy iteration-style warm-up loop that alternates between (i.) bottlenecking from a verbal CoT via masking and performing supervised fine-tuning, and (ii.) self-distillation by training the model to generate abstract tokens from the prompt alone via constrained decoding with the codebook"
arxiv.org ↗
After warm-up, ACoT is optimized with warm-started reinforcement learning under constrained decoding
"After warm-up, we optimize the generation of abstract sequences with warm-started reinforcement learning under constrained decoding"
arxiv.org ↗
ACoT is a post-training mechanism using discrete latent tokens from a reserved vocabulary
"a discrete latent reasoning post-training mechanism in which the language model produces a short sequence of tokens from a reserved vocabulary in lieu of a natural language CoT"
arxiv.org ↗
The abstract token vocabulary develops an emergent power-law frequency distribution across training phases, akin to natural language
"We also find an emergent power law distribution over the abstract vocabulary, akin to those seen in natural language, that evolves across the training phases"
arxiv.org ↗
Non-verbal reasoning methods have shorter generation lengths but performance lags behind verbalized CoT
"Non-verbal reasoning methods have emerged with shorter generation lengths by leveraging continuous representations, yet their performance lags behind verbalized CoT"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology