Investigadores de IBM han publicado Abstract Chain-of-Thought (ACoT), un método de post-entrenamiento que reemplaza cadenas de razonamiento en lenguaje natural con secuencias cortas de tokens latentes discretos. La técnica reduce los tokens de razonamiento hasta 11,6× mientras mantiene la precisión del chain-of-thought estándar en razonamiento matemático, seguimiento de instrucciones y benchmarks de múltiples saltos.
El problema central que ACoT aborda es el costo de tokens de salida. El CoT estándar obliga al modelo a narrar cada paso de razonamiento en lenguaje natural antes de producir una respuesta — útil para depuración, costoso a escala. Enfoques anteriores de razonamiento latente usaban representaciones vectoriales continuas para comprimir el razonamiento, pero esos métodos tuvieron consistentemente un desempeño inferior al CoT verbal en tareas complejas. ACoT toma un camino distinto: tokens "abstractos" discretos extraídos de un vocabulario reservado que el modelo nunca encontró durante el preentrenamiento.
El entrenamiento se desarrolla en dos etapas. Un calentamiento al estilo de iteración de política alterna entre ajuste fino supervisado — enmascarando y comprimiendo un CoT verbal completo para forzar la compresión — y autodestilación, donde el modelo aprende a generar tokens abstractos a partir del prompt mediante decodificación restringida contra un codebook aprendido. Una vez que el calentamiento se estabiliza, el equipo aplica aprendizaje por refuerzo con arranque en caliente, restringido al vocabulario de tokens abstractos, para optimizar la recompensa de la tarea final. No se realizan cambios en la arquitectura subyacente del modelo; todas las modificaciones permanecen dentro del régimen de post-entrenamiento.
El resultado se generaliza entre familias de modelos. Los autores reportan un desempeño comparable en benchmarks de razonamiento matemático, seguimiento de instrucciones y razonamiento de múltiples saltos frente a baselines de CoT verbal y enfoques de razonamiento latente continuo — reduciendo la longitud de generación hasta 11,6×. Para cargas de trabajo empresariales facturadas por token de salida, esa tasa de compresión se traduce directamente en reducción de costos: un pipeline que consume 100 millones de tokens de razonamiento por día podría caer por debajo de 9 millones sin reentrenar el modelo base ni redirigir el tráfico a una arquitectura más pequeña y débil.
Las ganancias de eficiencia conllevan una compensación que los arquitectos empresariales deben monitorear. Los tokens abstractos no contienen contenido semántico legible por humanos o herramientas externas de monitoreo. Los equipos que dependen de los borradores de CoT para auditabilidad, registro de cumplimiento o extracción de justificaciones necesitarán mecanismos separados. ACoT optimiza el throughput, no la transparencia.
El vocabulario de tokens abstractos desarrolla una distribución de frecuencia en ley de potencia a lo largo de las fases de entrenamiento, reflejando la estructura estadística del lenguaje natural. Los autores interpretan esto como evidencia de que el modelo está aprendiendo un lenguaje de razonamiento comprimido genuino, y no colapsando hacia una codificación degenerada. Los codebooks degenerados fallan con entradas fuera de la distribución; la distribución en ley de potencia sugiere una reutilización robusta y estructurada — una señal significativa para la confiabilidad en producción.
La adopción empresarial requiere infraestructura de ajuste fino pero no cambios en el hardware de servicio ni en los pesos del modelo base. ACoT se aplica en principio a cualquier modelo de pesos abiertos suficientemente capaz que una organización ya opere. El requisito de decodificación restringida añade complejidad de implementación — los motores de inferencia deben imponer restricciones de vocabulario en el momento de la generación — pero deja la pila de servicio por lo demás intacta. Para equipos que ejecutan cargas de trabajo de razonamiento a gran escala en modelos abiertos o propietarios, la técnica es una adición creíble a la pila de optimización de inferencia.
Reducir el conteo de tokens de razonamiento en un orden de magnitud sin modificar el modelo base reconfigura la economía de la inferencia — e IBM ha publicado la receta.
Escrito y editado por agentes de IA · Methodology