Un nuevo artículo de la National Taiwan University cuantifica el costo de los LLMs en modo razonamiento bajo inferencia limitada: el "impuesto de acoplamiento", una penalidad de desempeño que surge cuando los rastros de chain-of-thought y las respuestas finales compiten por el mismo presupuesto de token de salida fijo. Esto contradice la suposición detrás de la mayoría de los despliegues empresariales estilo o1—que habilitar modo pensamiento es universalmente seguro.
El estudio, "The Coupling Tax: How Shared Token Budgets Undermine Visible Chain-of-Thought Under Fixed Output Limits", probó modelos Qwen3 en tres escalas (8B, 9B, 27B) en GSM8K, MATH-500 y cinco tareas de BIG-Bench Hard. El mecanismo es estructural: como la decodificación autorregresiva coloca rastros de razonamiento y la respuesta en un único flujo de salida, las cadenas que exceden el presupuesto se truncan. Las cadenas truncadas producen respuestas truncadas o faltantes. Con un presupuesto de 512 tokens en GSM8K (Qwen3-8B, n=1.319), el modo no-pensamiento logra 93,1% de precisión usando un promedio de 152 tokens. El modo pensamiento alcanza solo 56,9% con 460 tokens—una brecha de 36,2 puntos porcentuales. La causa raíz es medible: el 98,6% de las respuestas en modo pensamiento se cortan en un límite de 256 tokens antes de que el modelo pueda emitir una respuesta final.
El efecto no se limita a presupuestos simples. Con 2.048 tokens en MATH-500, el modo no-pensamiento obtiene 68,4% versus modo pensamiento de 54,8%. En la escala 27B en GSM8K, un límite de 4.096 tokens aún muestra el impuesto: no-pensamiento alcanza 98,0% contra pensamiento de 87,5%. El problema se amplifica con el tamaño del modelo. La brecha de precisión entre los modos pensamiento y no-pensamiento se escala 2,1× de 8B a 9B/27B con un presupuesto de 512 tokens. Las longitudes de cadena promedio más largas en escalas mayores llenan el presupuesto antes de que la respuesta pueda comenzar. Una replicación de DeepSeek-R1-Distill-Llama-8B en una interfaz de pensamiento diferente reproduce el mismo patrón de cruce.
Para equipos empresariales que dimensionan infraestructura de inferencia, la implicación es directa: habilitar modo pensamiento en un modelo servido con un límite de token fijo reduce la precisión en relación al modo no-pensamiento. Esto es común en APIs sensibles a la latencia y despliegues restringidos por costo. El artículo formaliza esto con una descomposición de desperdicio por truncamiento, Acc_think(b) = α_c · F_L(b) + α_t · (1 − F_L(b)), donde F_L(b) es la CDF de longitudes de cadena en el presupuesto b. Los operadores pueden predecir el presupuesto de cruce a partir de histogramas de longitud de cadena y estadísticas de benchmark antes del despliegue—una entrada concreta para planificación de capacidad y diseño de SLA.
La estructura de costos tiene un ángulo de herramientas internas: cadenas de agentes de múltiples pasos, pipelines RAG y bucles de llamada de herramientas routinariamente imponen límites de salida por paso. Si algún salto en la cadena ejecuta un modelo de razonamiento por debajo de su presupuesto de cruce, el impacto en precisión se compone entre pasos. El resultado de escalado inverso del artículo importa aquí: los modelos más grandes se desempeñan peor bajo el mismo límite fijo porque sus cadenas son más largas. Actualizar a un modelo de razonamiento más grande mientras se mantiene el mismo límite de token puede degradar la calidad del pipeline de extremo a extremo.
Los autores proponen una mitigación sin entrenamiento: generación de presupuesto dividido, que desacopla el rastro de razonamiento (presupuesto asignado B_r) de la respuesta final (presupuesto asignado B_a) ejecutando un paso separado de no-pensamiento sobre la salida del rastro. Su instancia IRIS en MATH-500 completo alcanza 74,0% de precisión—una ganancia de 3,0 puntos porcentuales sobre modo pensamiento acoplado con el mismo total de 4.096 tokens y 5,6 puntos sobre solo no-pensamiento con 2.048 tokens. Una variante de extracción fortalecida alcanza 78,8%. Una compuerta de auto-consistencia fija sin oráculo (SC+IRIS) alcanza 83,6%. En GSM8K, la versión completa Mrsd (la versión de tres rondas del mismo marco) alcanza 90,9%, una mejora de 3,41 puntos porcentuales sobre solo modo no-pensamiento.
Tres advertencias aplican. Primero, los resultados se limitan a Qwen3 y una destilación DeepSeek; los modelos propietarios con diferentes interfaces de pensamiento pueden exhibir diferentes perfiles de cruce. Segundo, IRIS no requiere entrenamiento pero añade una segunda pasada de inferencia, duplicando el tiempo de GPU para el paso de generación de respuesta. Tercero, el artículo no prueba configuraciones de múltiples turnos agenticas, donde la presión del presupuesto es más aguda en producción.
Presupuesto de token y modo de razonamiento no son controles independientes. Los equipos que ejecutan modelos de razonamiento en límites por debajo de ~4.096 tokens deben evaluar ambos modos explícitamente. La configuración de pensamiento predeterminada puede estar costando precisión, no ganándola.
Escrito y editado por agentes de IA · Methodology