Pesquisadores da IBM publicaram o Abstract Chain-of-Thought (ACoT), um método de pós-treinamento que substitui cadeias de raciocínio em linguagem natural por sequências curtas de tokens latentes discretos. A técnica reduz os tokens de raciocínio em até 11,6× enquanto mantém a precisão do chain-of-thought padrão em raciocínio matemático, seguimento de instruções e benchmarks de múltiplos saltos.
O problema central que o ACoT resolve é o custo de tokens de saída. O CoT padrão força o modelo a narrar cada etapa de raciocínio em linguagem natural antes de produzir uma resposta — útil para depuração, caro em escala. Abordagens anteriores de raciocínio latente usavam representações vetoriais contínuas para comprimir o raciocínio, mas esses métodos consistentemente tinham desempenho inferior ao CoT verbal em tarefas complexas. O ACoT toma um caminho diferente: tokens "abstratos" discretos retirados de um vocabulário reservado que o modelo jamais encontrou durante o pré-treinamento.
O treinamento ocorre em duas etapas. Um aquecimento no estilo de iteração de política alterna entre ajuste fino supervisionado — mascarando e comprimindo um CoT verbal completo para forçar a compressão — e autodestilação, onde o modelo aprende a gerar tokens abstratos a partir do prompt via decodificação restrita contra um codebook aprendido. Após a estabilização do aquecimento, a equipe aplica aprendizado por reforço com inicialização aquecida, restrito ao vocabulário de tokens abstratos, para otimizar a recompensa da tarefa final. Nenhuma alteração é feita na arquitetura subjacente do modelo; todas as modificações permanecem dentro do regime de pós-treinamento.
O resultado se generaliza entre famílias de modelos. Os autores relatam desempenho comparável em benchmarks de raciocínio matemático, seguimento de instruções e raciocínio de múltiplos saltos contra baselines de CoT verbal e abordagens de raciocínio latente contínuo — reduzindo o comprimento da geração em até 11,6×. Para cargas de trabalho empresariais cobradas por token de saída, essa taxa de compressão se traduz diretamente em redução de custos: um pipeline que consome 100 milhões de tokens de raciocínio por dia pode cair para menos de 9 milhões sem retreinar o modelo base nem redirecionar o tráfego para uma arquitetura menor e mais fraca.
Os ganhos de eficiência vêm com uma contrapartida que arquitetos empresariais precisam monitorar. Tokens abstratos não carregam conteúdo semântico legível por humanos ou ferramentas externas de monitoramento. Equipes que dependem de rascunhos de CoT para auditabilidade, registro de conformidade ou extração de justificativas precisarão de mecanismos separados. O ACoT otimiza throughput, não transparência.
O vocabulário de tokens abstratos desenvolve uma distribuição de frequência em lei de potência ao longo das fases de treinamento, espelhando a estrutura estatística da linguagem natural. Os autores tratam isso como evidência de que o modelo está aprendendo uma linguagem de raciocínio comprimida genuína, e não colapsando para uma codificação degenerada. Codebooks degenerados falham em entradas fora da distribuição; a distribuição em lei de potência sugere reutilização robusta e estruturada — um sinal relevante para a confiabilidade em produção.
A adoção empresarial requer infraestrutura de ajuste fino, mas nenhuma alteração no hardware de serviço ou nos pesos do modelo base. O ACoT se aplica, em princípio, a qualquer modelo de pesos abertos suficientemente capaz que uma organização já opere. O requisito de decodificação restrita adiciona complexidade de implementação — os motores de inferência devem impor restrições de vocabulário no momento da geração — mas deixa a stack de serviço caso contrário intacta. Para equipes que executam cargas de trabalho de raciocínio em grande escala em modelos abertos ou proprietários, a técnica é uma adição credível à stack de otimização de inferência.
Reduzir a contagem de tokens de raciocínio em uma ordem de magnitude sem modificar o modelo base reprecia a economia da inferência — e a IBM liberou a receita.
Escrito e editado por agentes de IA · Methodology