O ACoT da IBM Reduz Tokens de Raciocínio em 11,6x Sem Perda de Precisão

Pesquisadores da IBM publicaram o Abstract Chain-of-Thought (ACoT), um método de pós-treinamento que substitui cadeias de raciocínio em linguagem natural por sequências curtas de tokens latentes discretos. A técnica reduz os tokens de raciocínio em até 11,6× enquanto mantém a precisão do chain-of-thought padrão em raciocínio matemático, seguimento de instruções e benchmarks de múltiplos saltos.

O problema central que o ACoT resolve é o custo de tokens de saída. O CoT padrão força o modelo a narrar cada etapa de raciocínio em linguagem natural antes de produzir uma resposta — útil para depuração, caro em escala. Abordagens anteriores de raciocínio latente usavam representações vetoriais contínuas para comprimir o raciocínio, mas esses métodos consistentemente tinham desempenho inferior ao CoT verbal em tarefas complexas. O ACoT toma um caminho diferente: tokens "abstratos" discretos retirados de um vocabulário reservado que o modelo jamais encontrou durante o pré-treinamento.

O treinamento ocorre em duas etapas. Um aquecimento no estilo de iteração de política alterna entre ajuste fino supervisionado — mascarando e comprimindo um CoT verbal completo para forçar a compressão — e autodestilação, onde o modelo aprende a gerar tokens abstratos a partir do prompt via decodificação restrita contra um codebook aprendido. Após a estabilização do aquecimento, a equipe aplica aprendizado por reforço com inicialização aquecida, restrito ao vocabulário de tokens abstratos, para otimizar a recompensa da tarefa final. Nenhuma alteração é feita na arquitetura subjacente do modelo; todas as modificações permanecem dentro do regime de pós-treinamento.

O resultado se generaliza entre famílias de modelos. Os autores relatam desempenho comparável em benchmarks de raciocínio matemático, seguimento de instruções e raciocínio de múltiplos saltos contra baselines de CoT verbal e abordagens de raciocínio latente contínuo — reduzindo o comprimento da geração em até 11,6×. Para cargas de trabalho empresariais cobradas por token de saída, essa taxa de compressão se traduz diretamente em redução de custos: um pipeline que consome 100 milhões de tokens de raciocínio por dia pode cair para menos de 9 milhões sem retreinar o modelo base nem redirecionar o tráfego para uma arquitetura menor e mais fraca.

Os ganhos de eficiência vêm com uma contrapartida que arquitetos empresariais precisam monitorar. Tokens abstratos não carregam conteúdo semântico legível por humanos ou ferramentas externas de monitoramento. Equipes que dependem de rascunhos de CoT para auditabilidade, registro de conformidade ou extração de justificativas precisarão de mecanismos separados. O ACoT otimiza throughput, não transparência.

O vocabulário de tokens abstratos desenvolve uma distribuição de frequência em lei de potência ao longo das fases de treinamento, espelhando a estrutura estatística da linguagem natural. Os autores tratam isso como evidência de que o modelo está aprendendo uma linguagem de raciocínio comprimida genuína, e não colapsando para uma codificação degenerada. Codebooks degenerados falham em entradas fora da distribuição; a distribuição em lei de potência sugere reutilização robusta e estruturada — um sinal relevante para a confiabilidade em produção.

A adoção empresarial requer infraestrutura de ajuste fino, mas nenhuma alteração no hardware de serviço ou nos pesos do modelo base. O ACoT se aplica, em princípio, a qualquer modelo de pesos abertos suficientemente capaz que uma organização já opere. O requisito de decodificação restrita adiciona complexidade de implementação — os motores de inferência devem impor restrições de vocabulário no momento da geração — mas deixa a stack de serviço caso contrário intacta. Para equipes que executam cargas de trabalho de raciocínio em grande escala em modelos abertos ou proprietários, a técnica é uma adição credível à stack de otimização de inferência.

Reduzir a contagem de tokens de raciocínio em uma ordem de magnitude sem modificar o modelo base reprecia a economia da inferência — e a IBM liberou a receita.

Sources

ACoT achieves up to 11.6× fewer reasoning tokens
"Abstract-CoT achieves up to 11.6× fewer reasoning tokens while demonstrating comparable performance across mathematical reasoning, instruction-following, and multi-hop reasoning"
arxiv.org ↗
ACoT demonstrates comparable performance on mathematical reasoning, instruction-following, and multi-hop reasoning benchmarks
"demonstrating comparable performance across mathematical reasoning, instruction-following, and multi-hop reasoning"
arxiv.org ↗
ACoT generalizes across language model families
"generalizes across language model families"
arxiv.org ↗
ACoT uses a policy iteration-style warm-up loop alternating between bottlenecking from verbal CoT via masking and SFT, and self-distillation via constrained decoding with a codebook
"a policy iteration-style warm-up loop that alternates between (i.) bottlenecking from a verbal CoT via masking and performing supervised fine-tuning, and (ii.) self-distillation by training the model to generate abstract tokens from the prompt alone via constrained decoding with the codebook"
arxiv.org ↗
After warm-up, ACoT is optimized with warm-started reinforcement learning under constrained decoding
"After warm-up, we optimize the generation of abstract sequences with warm-started reinforcement learning under constrained decoding"
arxiv.org ↗
ACoT is a post-training mechanism using discrete latent tokens from a reserved vocabulary
"a discrete latent reasoning post-training mechanism in which the language model produces a short sequence of tokens from a reserved vocabulary in lieu of a natural language CoT"
arxiv.org ↗
The abstract token vocabulary develops an emergent power-law frequency distribution across training phases, akin to natural language
"We also find an emergent power law distribution over the abstract vocabulary, akin to those seen in natural language, that evolves across the training phases"
arxiv.org ↗
Non-verbal reasoning methods have shorter generation lengths but performance lags behind verbalized CoT
"Non-verbal reasoning methods have emerged with shorter generation lengths by leveraging continuous representations, yet their performance lags behind verbalized CoT"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology