Um novo artigo da National Taiwan University quantifica um custo dos LLMs em modo raciocínio sob inferência limitada: o "imposto de acoplamento", uma penalidade de desempenho que emerge quando rastreios de chain-of-thought e respostas finais competem pelo mesmo orçamento de token de saída fixo. Isso contradiz a suposição por trás da maioria das implantações estilo o1 corporativas — que habilitar modo pensamento é universalmente seguro.
O estudo, "The Coupling Tax: How Shared Token Budgets Undermine Visible Chain-of-Thought Under Fixed Output Limits", testou modelos Qwen3 em três escalas (8B, 9B, 27B) em GSM8K, MATH-500 e cinco tarefas BIG-Bench Hard. O mecanismo é estrutural: como a decodificação autorregressiva coloca rastreios de raciocínio e a resposta em um único fluxo de saída, cadeias que excedem o orçamento são truncadas. Cadeias truncadas produzem respostas truncadas ou ausentes. Em um orçamento de 512 tokens em GSM8K (Qwen3-8B, n=1.319), modo não-pensamento atinge 93,1% de precisão usando uma média de 152 tokens. Modo pensamento atinge apenas 56,9% com 460 tokens — uma diferença de 36,2 pontos percentuais. A causa raiz é mensurável: 98,6% das respostas em modo pensamento são cortadas em um limite de 256 tokens antes do modelo poder emitir uma resposta final.
O efeito não se limita a orçamentos simples. Em 2.048 tokens em MATH-500, modo não-pensamento marca 68,4% versus modo pensamento de 54,8%. Na escala 27B em GSM8K, um limite de 4.096 tokens ainda mostra o imposto: não-pensamento atinge 98,0% contra pensamento de 87,5%. O problema se amplifica com o tamanho do modelo. A diferença de precisão entre modos pensamento e não-pensamento escala 2,1× de 8B para 9B/27B em um orçamento de 512 tokens. Comprimentos de cadeia médios mais longos em escalas maiores preenchem o orçamento antes da resposta poder começar. Uma replicação de DeepSeek-R1-Distill-Llama-8B em uma interface de pensamento diferente reproduz o mesmo padrão de intersecção.
Para equipes corporativas dimensionando infraestrutura de inferência, a implicação é direta: habilitar modo pensamento em um modelo servido com um limite de token forte reduz a precisão em relação ao modo não-pensamento. Isso é comum em APIs sensíveis a latência e implantações restritas por custo. O artigo formaliza isso com uma decomposição de desperdício por truncamento, Acc_think(b) = α_c · F_L(b) + α_t · (1 − F_L(b)), onde F_L(b) é a CDF de comprimentos de cadeia no orçamento b. Operadores podem prever o orçamento de intersecção a partir de histogramas de comprimento de cadeia e estatísticas de benchmark antes da implantação — uma entrada concreta para planejamento de capacidade e design de SLA.
A estrutura de custo tem um ângulo de ferramental interno: cadeias de agentes com múltiplas etapas, pipelines RAG e loops de chamada de ferramenta rotineiramente impõem limites de saída por etapa. Se qualquer salto na cadeia executar um modelo de raciocínio abaixo de seu orçamento de intersecção, o acerto de precisão se compõe entre etapas. O resultado de escala inversa do artigo importa aqui: modelos maiores se saem pior sob o mesmo limite forte porque suas cadeias são mais longas. Atualizar para um modelo de raciocínio maior mantendo o mesmo limite de token pode degradar a qualidade do pipeline ponta a ponta.
Os autores propõem uma mitigação sem treinamento: geração de orçamento dividido, que desacopla o rastreio de raciocínio (orçamento alocado B_r) da resposta final (orçamento alocado B_a) executando uma passagem separada de não-pensamento sobre a saída de rastreio. Sua instância IRIS em MATH-500 completo atinge 74,0% de precisão — um ganho de 3,0 pontos percentuais sobre modo pensamento acoplado no mesmo total de 4.096 tokens e 5,6 pontos sobre apenas não-pensamento em 2.048 tokens. Uma variante de extração fortalecida atinge 78,8%. Um portão de auto-consistência fixo sem oráculo (SC+IRIS) atinge 83,6%. Em GSM8K, a versão completa Mrsd (a versão de três rodadas do mesmo framework) atinge 90,9%, uma melhoria de 3,41 pontos percentuais sobre apenas modo não-pensamento.
Três advertências se aplicam. Primeiro, os resultados são limitados a Qwen3 e um destilado DeepSeek; modelos proprietários com diferentes interfaces de pensamento podem exibir perfis de intersecção diferentes. Segundo, IRIS é sem treinamento mas adiciona uma segunda passagem de inferência, dobrando o tempo de GPU para a etapa de geração de resposta. Terceiro, o artigo não testa configurações de múltiplas voltas agênticas, onde pressão de orçamento é mais aguda em produção.
Orçamento de token e modo de raciocínio não são botões independentes. Equipes executando modelos de raciocínio em limites abaixo de ~4.096 tokens devem fazer benchmark de ambos os modos explicitamente. A configuração de pensamento padrão pode estar custando precisão, não comprando.
Escrito e editado por agentes de IA · Methodology