Imposto de Acoplamento: Modo de Raciocínio Reduz Precisão Sob Limites de Token

Um novo artigo da National Taiwan University quantifica um custo dos LLMs em modo raciocínio sob inferência limitada: o "imposto de acoplamento", uma penalidade de desempenho que emerge quando rastreios de chain-of-thought e respostas finais competem pelo mesmo orçamento de token de saída fixo. Isso contradiz a suposição por trás da maioria das implantações estilo o1 corporativas — que habilitar modo pensamento é universalmente seguro.

O estudo, "The Coupling Tax: How Shared Token Budgets Undermine Visible Chain-of-Thought Under Fixed Output Limits", testou modelos Qwen3 em três escalas (8B, 9B, 27B) em GSM8K, MATH-500 e cinco tarefas BIG-Bench Hard. O mecanismo é estrutural: como a decodificação autorregressiva coloca rastreios de raciocínio e a resposta em um único fluxo de saída, cadeias que excedem o orçamento são truncadas. Cadeias truncadas produzem respostas truncadas ou ausentes. Em um orçamento de 512 tokens em GSM8K (Qwen3-8B, n=1.319), modo não-pensamento atinge 93,1% de precisão usando uma média de 152 tokens. Modo pensamento atinge apenas 56,9% com 460 tokens — uma diferença de 36,2 pontos percentuais. A causa raiz é mensurável: 98,6% das respostas em modo pensamento são cortadas em um limite de 256 tokens antes do modelo poder emitir uma resposta final.

O efeito não se limita a orçamentos simples. Em 2.048 tokens em MATH-500, modo não-pensamento marca 68,4% versus modo pensamento de 54,8%. Na escala 27B em GSM8K, um limite de 4.096 tokens ainda mostra o imposto: não-pensamento atinge 98,0% contra pensamento de 87,5%. O problema se amplifica com o tamanho do modelo. A diferença de precisão entre modos pensamento e não-pensamento escala 2,1× de 8B para 9B/27B em um orçamento de 512 tokens. Comprimentos de cadeia médios mais longos em escalas maiores preenchem o orçamento antes da resposta poder começar. Uma replicação de DeepSeek-R1-Distill-Llama-8B em uma interface de pensamento diferente reproduz o mesmo padrão de intersecção.

Para equipes corporativas dimensionando infraestrutura de inferência, a implicação é direta: habilitar modo pensamento em um modelo servido com um limite de token forte reduz a precisão em relação ao modo não-pensamento. Isso é comum em APIs sensíveis a latência e implantações restritas por custo. O artigo formaliza isso com uma decomposição de desperdício por truncamento, Acc_think(b) = α_c · F_L(b) + α_t · (1 − F_L(b)), onde F_L(b) é a CDF de comprimentos de cadeia no orçamento b. Operadores podem prever o orçamento de intersecção a partir de histogramas de comprimento de cadeia e estatísticas de benchmark antes da implantação — uma entrada concreta para planejamento de capacidade e design de SLA.

A estrutura de custo tem um ângulo de ferramental interno: cadeias de agentes com múltiplas etapas, pipelines RAG e loops de chamada de ferramenta rotineiramente impõem limites de saída por etapa. Se qualquer salto na cadeia executar um modelo de raciocínio abaixo de seu orçamento de intersecção, o acerto de precisão se compõe entre etapas. O resultado de escala inversa do artigo importa aqui: modelos maiores se saem pior sob o mesmo limite forte porque suas cadeias são mais longas. Atualizar para um modelo de raciocínio maior mantendo o mesmo limite de token pode degradar a qualidade do pipeline ponta a ponta.

Os autores propõem uma mitigação sem treinamento: geração de orçamento dividido, que desacopla o rastreio de raciocínio (orçamento alocado B_r) da resposta final (orçamento alocado B_a) executando uma passagem separada de não-pensamento sobre a saída de rastreio. Sua instância IRIS em MATH-500 completo atinge 74,0% de precisão — um ganho de 3,0 pontos percentuais sobre modo pensamento acoplado no mesmo total de 4.096 tokens e 5,6 pontos sobre apenas não-pensamento em 2.048 tokens. Uma variante de extração fortalecida atinge 78,8%. Um portão de auto-consistência fixo sem oráculo (SC+IRIS) atinge 83,6%. Em GSM8K, a versão completa Mrsd (a versão de três rodadas do mesmo framework) atinge 90,9%, uma melhoria de 3,41 pontos percentuais sobre apenas modo não-pensamento.

Três advertências se aplicam. Primeiro, os resultados são limitados a Qwen3 e um destilado DeepSeek; modelos proprietários com diferentes interfaces de pensamento podem exibir perfis de intersecção diferentes. Segundo, IRIS é sem treinamento mas adiciona uma segunda passagem de inferência, dobrando o tempo de GPU para a etapa de geração de resposta. Terceiro, o artigo não testa configurações de múltiplas voltas agênticas, onde pressão de orçamento é mais aguda em produção.

Orçamento de token e modo de raciocínio não são botões independentes. Equipes executando modelos de raciocínio em limites abaixo de ~4.096 tokens devem fazer benchmark de ambos os modos explicitamente. A configuração de pensamento padrão pode estar custando precisão, não comprando.

Sources

Non-thinking mode achieves 93.1% on GSM8K at a 512-token budget using 152 avg tokens, while thinking mode reaches just 56.9% with 460 tokens — a 36.2 pp gap
"At budget 512, non-thinking achieves 93.1% using 152 avg tokens, while thinking reaches just 56.9% with 460 tokens. On MATH-500, a same-H800 run at budget 2048 gives nothink@2048 = 68.4% vs. think@2048 = 54.8%"
arxiv.org ↗
98.6% of thinking responses are truncated at a 256-token budget cap
"98.6% of thinking responses are truncated at b=256"
arxiv.org ↗
At the 27B scale on GSM8K with a 4,096-token cap, non-thinking scores 98.0% versus thinking mode's 87.5%
"At 27B on GSM8K, the tax also persists at a 4096-token cap (nothink 98.0% vs. think 87.5%)"
arxiv.org ↗
The accuracy gap scales 2.1× from 8B to 9B/27B at b=512 within the Qwen family
"the amplification with chain length (2.1× from 8B to 9B/27B at b=512 within the Qwen family)"
arxiv.org ↗
DeepSeek-R1-Distill-Llama-8B replication shows the same crossover pattern under a different thinking interface
"A DeepSeek-R1-Distill-Llama-8B replication shows the same pattern under a different thinking interface"
arxiv.org ↗
IRIS on MATH-500 reaches 74.0% accuracy, a strengthened extraction variant reaches 78.8%, and SC+IRIS reaches 83.6%
"IRIS@4096 achieves 74.0% [70.0, 77.7]—exceeding nothink@2048 (68.4%) by +5.6 pp and coupled think@4096 (71.0%) by +3.0 pp"
arxiv.org ↗
Full Mrsd on GSM8K reaches 90.9%, a 3.41 pp improvement over the same-budget non-thinking probe
"On full GSM8K (n=1,319), full Mrsd reaches 90.9%, improving over the same-budget non-thinking probe by +3.41 pp"
arxiv.org ↗
Paper tests Qwen3 at three scales (8B, 9B, 27B) across GSM8K, MATH-500, and five BIG-Bench Hard tasks
"Across GSM8K, MATH-500, and five BIG-Bench Hard tasks with Qwen3 models at three scales"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Imposto de Acoplamento: Modo de Raciocínio Reduz Precisão Sob Limites de Token

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.