Fine-tuning apaga cadeias de raciocínio enquanto precisão se mantém alta

Quando você faz fine-tuning de um modelo de raciocínio em dados de instrução-resposta, você o transforma de volta em um LLM padrão — um que atinge seus alvos de precisão enquanto perde as cadeias de raciocínio intermediárias estruturadas que justificavam a implantação de um modelo de raciocínio em primeiro lugar. Pesquisadores da King's College London documentaram esse modo de falha em um preprint publicado em 20 de maio, nomeando-o colapso de trace de raciocínio e demonstrando que evals convencionais apenas de resposta não o capturarão.

Modelos de raciocínio são treinados para emitir raciocínio explícito dentro de um bloco de trace estruturado antes de gerar uma resposta final. Conjuntos de dados de fine-tuning em produção quase nunca são anotados com tais traces: são pares instrução-resposta. Quando treinado em esses dados via fine-tuning supervisionado padrão, o modelo pode minimizar a perda cross-entropy pulando o trace inteiramente e indo direto para a resposta. O resultado é um modelo que passa em eval convencional mas não mais raciocina explicitamente. Os autores estudaram quatro modelos de peso aberto em execuções SFT direcionadas a questões científicas, raciocínio matemático e geração de código. As taxas de trace válido caíram em múltiplos cenários enquanto a precisão de resposta final declinou apenas modestamente.

O artigo introduz um framework de avaliação estrutural que classifica cada geração em uma de quatro categorias: trace de raciocínio válido, trace vazio (bloco presente mas em branco), trace ausente (bloco ausente), ou trace truncado (raciocínio cortado no meio da cadeia). A métrica-chave é pass@1 condicionado a raciocínio — precisão computada apenas em respostas onde um trace de raciocínio válido foi produzido. Em vários cenários, o pass@1 condicionado a raciocínio permaneceu alto conforme a taxa de trace válido desabou, significando que o modelo ainda raciocinou corretamente quando raciocinou. O pass@1 incondicional padrão mascarou essa lacuna, fazendo um modelo degradado parecer aceitável.

A equipe empacota o framework como ThinkPack, uma biblioteca fornecendo utilidades agnósticas a modelo para construção de prompt, extração e validação de trace, computação de métrica e mascaramento de loss. Diferentes modelos de raciocínio usam diferentes templates de chat e convenções para delimitar conteúdo de trace. ThinkPack abstrai essas diferenças para que o mesmo pipeline de avaliação e mitigação execute através de famílias de modelos de raciocínio sem adaptadores bespoke por modelo.

A mitigação é operacionalmente barata. Aplicar mascaramento de loss durante fine-tuning — estruturando o objetivo de treinamento para que o modelo seja treinado através do trace de raciocínio em vez de penalizado por produzi-lo em dados sem trace — preserva taxas de trace válido sem requerer destilação ou anotações geradas por teacher. Destilação é a alternativa padrão ouro: regenerar seu corpus de treinamento através de um teacher com capacidade de raciocínio, depois fazer fine-tuning em esse conjunto de dados aumentado. Para conjuntos de dados privados, especializados ou caros de aumentar, essa abordagem é frequentemente impraticável. Mascaramento de loss consegue a maioria do benefício de preservação ao custo de uma modificação apenas no loop de treinamento.

As questões abertas são escala e cobertura de tarefa. O estudo tem como alvo quatro modelos de peso aberto e três domínios de tarefa. Se modelos maiores ou instruction-tuning em volumes de dados maiores mostram diferentes curvas de colapso não é estudado. O artigo também se concentra em validade estrutural de traces em vez de qualidade semântica ou fidelidade, que é um problema de avaliação separado que o framework explicitamente adia. Equipes fazendo fine-tuning em LoRA em vez de SFT completo não têm resultados reportados.

Adicione taxa de trace válido e pass@1 condicionado a raciocínio ao seu pipeline de eval de fine-tuning antes de enviar qualquer modelo de raciocínio pós-treinado. Mascaramento de loss é uma modificação no loop de treinamento que compra a maioria do benefício de preservação que destilação lhe daria por uma fração do custo.

Sources

Researchers at King's College London define reasoning-trace collapse as the progressive loss of a model's ability to produce complete, non-empty, structurally valid reasoning traces during fine-tuning
"We define reasoning-trace collapse as the progressive loss of a model's ability to produce complete, non-empty, structurally valid reasoning traces during fine-tuning."
arxiv.org ↗
Standard supervised fine-tuning can rapidly suppress valid reasoning traces while answer-only metrics obscure this failure
"standard supervised fine-tuning can rapidly suppress valid reasoning traces, and that answer-only metrics can substantially obscure this failure: in several settings, performance conditional on valid reasoning remains high while the rate of valid reasoning falls sharply."
arxiv.org ↗
The structural evaluation framework classifies traces as valid, empty, missing, or truncated
"measuring valid, empty, missing, and truncated reasoning alongside reasoning-conditioned task performance"
arxiv.org ↗
The study covers four open-weight reasoning models evaluated on science questions, mathematical reasoning, and code generation
"We fine-tune these models on standard instruction–response data without explicit reasoning traces, and evaluate them throughout training on new-task science questions, mathematical reasoning, and code generation."
arxiv.org ↗
ThinkPack is a model-agnostic library for reasoning-aware training, parsing, and evaluation
"We implement this framework in ThinkPack, a lightweight library for reasoning-aware training, parsing, and evaluation."
arxiv.org ↗
ThinkPack provides model-agnostic utilities for prompt construction, trace extraction, validation, metric computation, and loss masking
"ThinkPack provides model-agnostic utilities for these operations, allowing the same evaluation and mitigation pipeline to be applied across reasoning formats."
arxiv.org ↗
Simple loss-masking strategies substantially mitigate collapse without requiring teacher-generated reasoning traces
"simple loss-masking strategies can substantially mitigate collapse without requiring teacher-generated reasoning traces"
arxiv.org ↗
Fine-tuning datasets used for model customisation do not contain explicit reasoning traces, creating a mismatch with reasoning-model behaviour
"Most datasets used for model customisation do not contain explicit reasoning traces, creating a mismatch between reasoning-aware model behaviour and standard downstream adaptation data."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Fine-tuning apaga cadeias de raciocínio enquanto precisão se mantém alta

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.