Fine-tuning borra cadenas de razonamiento mientras la precisión se mantiene alta

Cuando haces fine-tuning de un modelo de razonamiento en datos de instrucción-respuesta, lo conviertes de nuevo en un LLM estándar — uno que alcanza tus objetivos de precisión mientras pierde las cadenas de razonamiento intermedio estructurado que justificaban desplegar un modelo de razonamiento en primer lugar. Investigadores de King's College London han documentado este modo de fallo en un preprint publicado el 20 de mayo, llamándolo colapso de traza de razonamiento y demostrando que las evaluaciones convencionales solo de respuesta no lo detectarán.

Los modelos de razonamiento se entrenan para emitir razonamiento explícito dentro de un bloque de traza estructurado antes de generar una respuesta final. Los conjuntos de datos de fine-tuning en producción casi nunca están anotados con tales trazas: son pares instrucción-respuesta. Cuando se entrena en estos datos a través de fine-tuning supervisado estándar, el modelo puede minimizar la pérdida cross-entropy omitiendo la traza completamente e ir directamente a la respuesta. El resultado es un modelo que aprueba la evaluación convencional pero ya no razona explícitamente. Los autores estudiaron cuatro modelos de peso abierto en ejecuciones SFT dirigidas a preguntas científicas, razonamiento matemático y generación de código. Las tasas de traza válida cayeron en múltiples configuraciones mientras la precisión de respuesta final disminuyó solo modestamente.

El artículo introduce un framework de evaluación estructural que clasifica cada generación en una de cuatro categorías: traza de razonamiento válida, traza vacía (bloque presente pero en blanco), traza ausente (bloque ausente), o traza truncada (razonamiento cortado a mitad de cadena). La métrica clave es pass@1 condicionado al razonamiento — precisión computada solo sobre respuestas donde se produjo una traza de razonamiento válida. En varios escenarios, el pass@1 condicionado al razonamiento se mantuvo alto conforme la tasa de traza válida colapsó, lo que significa que el modelo aún razonaba correctamente cuando razonaba. El pass@1 incondicional estándar enmascaró esta brecha, haciendo que un modelo degradado se viera aceptable.

El equipo empaqueta el framework como ThinkPack, una biblioteca que proporciona utilidades agnósticas del modelo para construcción de prompts, extracción y validación de trazas, computación de métricas y enmascaramiento de pérdida. Diferentes modelos de razonamiento usan diferentes plantillas de chat y convenciones para delimitar contenido de traza. ThinkPack abstrae esas diferencias para que el mismo pipeline de evaluación y mitigación funcione en familias de modelos de razonamiento sin adaptadores personalizados por modelo.

La mitigación es operacionalmente barata. Aplicar enmascaramiento de pérdida durante el fine-tuning — estructurando el objetivo de entrenamiento para que el modelo se entrene a través de la traza de razonamiento en lugar de ser penalizado por producirla en datos sin traza — preserva las tasas de traza válida sin requerir destilación o anotaciones generadas por un maestro. La destilación es la alternativa de oro estándar: regenerar tu corpus de entrenamiento a través de un maestro con capacidad de razonamiento, luego hacer fine-tuning en ese conjunto de datos aumentado. Para conjuntos de datos privados, especializados o costosos de aumentar, ese enfoque es a menudo impracticable. El enmascaramiento de pérdida logra la mayoría del beneficio de preservación al costo de una modificación solo en el bucle de entrenamiento.

Las preguntas abiertas son escala y cobertura de tareas. El estudio apunta a cuatro modelos de peso abierto y tres dominios de tareas. Si modelos más grandes o instruction-tuning a volúmenes de datos más altos muestran diferentes curvas de colapso no ha sido estudiado. El artículo también se enfoca en la validez estructural de trazas en lugar de calidad semántica o fidelidad, que es un problema de evaluación separado que el framework explícitamente posterga. Los equipos que hacen fine-tuning en LoRA en lugar de SFT completo no tienen resultados reportados.

Añade tasa de traza válida y pass@1 condicionado al razonamiento a tu pipeline de evaluación de fine-tuning antes de enviar cualquier modelo de razonamiento post-entrenado. El enmascaramiento de pérdida es una modificación en el bucle de entrenamiento que obtiene la mayoría del beneficio de preservación que la destilación te daría a una fracción del costo.

Sources

Researchers at King's College London define reasoning-trace collapse as the progressive loss of a model's ability to produce complete, non-empty, structurally valid reasoning traces during fine-tuning
"We define reasoning-trace collapse as the progressive loss of a model's ability to produce complete, non-empty, structurally valid reasoning traces during fine-tuning."
arxiv.org ↗
Standard supervised fine-tuning can rapidly suppress valid reasoning traces while answer-only metrics obscure this failure
"standard supervised fine-tuning can rapidly suppress valid reasoning traces, and that answer-only metrics can substantially obscure this failure: in several settings, performance conditional on valid reasoning remains high while the rate of valid reasoning falls sharply."
arxiv.org ↗
The structural evaluation framework classifies traces as valid, empty, missing, or truncated
"measuring valid, empty, missing, and truncated reasoning alongside reasoning-conditioned task performance"
arxiv.org ↗
The study covers four open-weight reasoning models evaluated on science questions, mathematical reasoning, and code generation
"We fine-tune these models on standard instruction–response data without explicit reasoning traces, and evaluate them throughout training on new-task science questions, mathematical reasoning, and code generation."
arxiv.org ↗
ThinkPack is a model-agnostic library for reasoning-aware training, parsing, and evaluation
"We implement this framework in ThinkPack, a lightweight library for reasoning-aware training, parsing, and evaluation."
arxiv.org ↗
ThinkPack provides model-agnostic utilities for prompt construction, trace extraction, validation, metric computation, and loss masking
"ThinkPack provides model-agnostic utilities for these operations, allowing the same evaluation and mitigation pipeline to be applied across reasoning formats."
arxiv.org ↗
Simple loss-masking strategies substantially mitigate collapse without requiring teacher-generated reasoning traces
"simple loss-masking strategies can substantially mitigate collapse without requiring teacher-generated reasoning traces"
arxiv.org ↗
Fine-tuning datasets used for model customisation do not contain explicit reasoning traces, creating a mismatch with reasoning-model behaviour
"Most datasets used for model customisation do not contain explicit reasoning traces, creating a mismatch between reasoning-aware model behaviour and standard downstream adaptation data."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Fine-tuning borra cadenas de razonamiento mientras la precisión se mantiene alta

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.