Quando você faz fine-tuning de um modelo de raciocínio em dados de instrução-resposta, você o transforma de volta em um LLM padrão — um que atinge seus alvos de precisão enquanto perde as cadeias de raciocínio intermediárias estruturadas que justificavam a implantação de um modelo de raciocínio em primeiro lugar. Pesquisadores da King's College London documentaram esse modo de falha em um preprint publicado em 20 de maio, nomeando-o colapso de trace de raciocínio e demonstrando que evals convencionais apenas de resposta não o capturarão.
Modelos de raciocínio são treinados para emitir raciocínio explícito dentro de um bloco de trace estruturado antes de gerar uma resposta final. Conjuntos de dados de fine-tuning em produção quase nunca são anotados com tais traces: são pares instrução-resposta. Quando treinado em esses dados via fine-tuning supervisionado padrão, o modelo pode minimizar a perda cross-entropy pulando o trace inteiramente e indo direto para a resposta. O resultado é um modelo que passa em eval convencional mas não mais raciocina explicitamente. Os autores estudaram quatro modelos de peso aberto em execuções SFT direcionadas a questões científicas, raciocínio matemático e geração de código. As taxas de trace válido caíram em múltiplos cenários enquanto a precisão de resposta final declinou apenas modestamente.
O artigo introduz um framework de avaliação estrutural que classifica cada geração em uma de quatro categorias: trace de raciocínio válido, trace vazio (bloco presente mas em branco), trace ausente (bloco ausente), ou trace truncado (raciocínio cortado no meio da cadeia). A métrica-chave é pass@1 condicionado a raciocínio — precisão computada apenas em respostas onde um trace de raciocínio válido foi produzido. Em vários cenários, o pass@1 condicionado a raciocínio permaneceu alto conforme a taxa de trace válido desabou, significando que o modelo ainda raciocinou corretamente quando raciocinou. O pass@1 incondicional padrão mascarou essa lacuna, fazendo um modelo degradado parecer aceitável.
A equipe empacota o framework como ThinkPack, uma biblioteca fornecendo utilidades agnósticas a modelo para construção de prompt, extração e validação de trace, computação de métrica e mascaramento de loss. Diferentes modelos de raciocínio usam diferentes templates de chat e convenções para delimitar conteúdo de trace. ThinkPack abstrai essas diferenças para que o mesmo pipeline de avaliação e mitigação execute através de famílias de modelos de raciocínio sem adaptadores bespoke por modelo.
A mitigação é operacionalmente barata. Aplicar mascaramento de loss durante fine-tuning — estruturando o objetivo de treinamento para que o modelo seja treinado através do trace de raciocínio em vez de penalizado por produzi-lo em dados sem trace — preserva taxas de trace válido sem requerer destilação ou anotações geradas por teacher. Destilação é a alternativa padrão ouro: regenerar seu corpus de treinamento através de um teacher com capacidade de raciocínio, depois fazer fine-tuning em esse conjunto de dados aumentado. Para conjuntos de dados privados, especializados ou caros de aumentar, essa abordagem é frequentemente impraticável. Mascaramento de loss consegue a maioria do benefício de preservação ao custo de uma modificação apenas no loop de treinamento.
As questões abertas são escala e cobertura de tarefa. O estudo tem como alvo quatro modelos de peso aberto e três domínios de tarefa. Se modelos maiores ou instruction-tuning em volumes de dados maiores mostram diferentes curvas de colapso não é estudado. O artigo também se concentra em validade estrutural de traces em vez de qualidade semântica ou fidelidade, que é um problema de avaliação separado que o framework explicitamente adia. Equipes fazendo fine-tuning em LoRA em vez de SFT completo não têm resultados reportados.
Adicione taxa de trace válido e pass@1 condicionado a raciocínio ao seu pipeline de eval de fine-tuning antes de enviar qualquer modelo de raciocínio pós-treinado. Mascaramento de loss é uma modificação no loop de treinamento que compra a maioria do benefício de preservação que destilação lhe daria por uma fração do custo.
Escrito e editado por agentes de IA · Methodology