La Reproducción Autogenerada Reduce el Olvido Catastrófico en Modelos Ajustados

Un artículo publicado el 25 de mayo por investigadores de NYU—Martin Marek, Dongkyu Cho, Shikai Qiu, Rumi Chunara, Pavel Izmailov y Andrew Gordon Wilson—demuestra que los modelos de lenguaje pueden muestrear su propia distribución para generar datos de reproducción que prácticamente eliminan el olvido catastrófico sin almacenar ejemplares de tareas anteriores. Para equipos que ejecutan pipelines de ajuste fino continuo, los búferes de ejemplares externos pueden ser opcionales.

Las muestras autogeneradas extraídas de la propia distribución del modelo sirven como sustitutos efectivos para ejemplos de entrenamiento almacenados durante el ajuste fino secuencial. Cuando se ajusta un modelo para una nueva tarea, intercalar actualizaciones de gradiente con pasadas hacia adelante en texto autogenerado preserva la capacidad anterior con calidad cercana a la reproducción con ejemplares. Sin modelo generativo separado, sin pipeline de datos, sin búfer de reproducción curado—el modelo es su propio archivo.

El artículo identifica tres regímenes de olvido. Primero: restricción de capacidad. Los modelos preentrenados cercanos a la saturación no pueden absorber nuevas tareas sin sobrescribir el conocimiento anterior; la reproducción autogenerada no soluciona el olvido inducido por saturación. Segundo: compensación de optimización. Cuando hay capacidad disponible, las tasas de aprendizaje bajas reducen el olvido pero requieren sustancialmente más pasos de entrenamiento, un cuello de botella bien conocido en ejecuciones de ajuste fino adaptativo de dominio. Tercero: reproducción como rompedora de compensación. Con reproducción autogenerada, las tasas de aprendizaje altas eliminan la penalización del olvido, colapsando lo que era un problema de optimización de dos variables en una única decisión.

Para un pipeline de ajuste fino: si su modelo base no está saturado en capacidad y necesita adaptación secuencial entre dominios o tipos de tarea, ejecute ajuste fino con tasa de aprendizaje alta mientras canaliza continuaciones autogeneradas como señal de reproducción. La reproducción cuesta solo computación de inferencia en el modelo que ya está entrenando—sin gestión de búfer separada, sin dependencia de datos de entrenamiento originales, que a menudo no están disponibles en el momento del ajuste fino en producción al partir de un checkpoint público.

Esto importa para los diseñadores de sistemas de agentes. Las implementaciones de agentes dinámicos requieren actualizaciones incrementales de seguimiento de instrucciones—adaptarse a un nuevo esquema de herramienta, formato de salida modificado o dominio expandido—sin degradar el razonamiento central ni la adherencia a tareas anteriores. La solución estándar, adaptadores ajustados separados por tarea, multiplica la superficie de gobernanza: cada adaptador necesita pruebas de regresión, versionado y lógica de enrutamiento. Si la reproducción autogenerada funciona a escala de producción, la adaptación continua de modelo único se vuelve viable, reduciendo la necesidad de crecientes zoológicos de modelos.

Dos advertencias importan. El hallazgo de saturación de capacidad es un punto de parada duro: si está ajustando un modelo ya altamente adaptado—preentrenamiento continuado específico de dominio seguido de ajuste de instrucción—la saturación es un riesgo real y la reproducción no lo compensará. Medir la capacidad remanente no es trivial, y el artículo no ofrece un diagnóstico listo para producción. Segundo, el calificador "prácticamente elimina" tiene peso; los profesionales necesitan números de referencia por tipo de tarea y escala de modelo antes de confiar en esto para cargas de trabajo de producción sensibles a latencia o precisión.

Los enfoques anteriores de ensayo de autosíntesis como SSR (arXiv 2403.01244) requerían que el LLM base generara instancias sintéticas mediante aprendizaje en contexto y un paso de refinamiento separado. El marco de este artículo es más simple: el modelo muestrea de su propia distribución directamente, sin protocolo auxiliar. Las compensaciones—diversidad de muestras generadas, alineación con la distribución de tarea anterior—son la evaluación natural siguiente para equipos considerando adopción.

Encamine el ajuste fino secuencial a través de reproducción autogenerada antes de invertir en infraestructura de almacenamiento de ejemplares. Pero ejecute una auditoría de capacidad en su checkpoint base primero—los modelos saturados necesitan una intervención completamente diferente.

Sources

Language models can sample from their own training distribution, and these self-generated samples serve as effective replay data, nearly eliminating forgetting
"language models can sample from their own training distribution, and we show that these self-generated samples serve as effective replay data, nearly eliminating forgetting"
arxiv.org ↗
Forgetting persists when the model has little remaining capacity; models pretrained close to saturation cannot absorb new information without overwriting prior knowledge
"forgetting nonetheless persists when the model has little remaining capacity: models pretrained close to saturation cannot absorb new information without overwriting prior knowledge"
arxiv.org ↗
Low learning rates reduce forgetting but require substantially more training steps; replay enables fast, high-learning-rate finetuning without forgetting
"low learning rates reduce forgetting but require substantially more training steps. Replay breaks this tradeoff, enabling fast, high-learning-rate finetuning without forgetting"
arxiv.org ↗
Self-Synthesized Rehearsal (SSR) uses the LLM to generate synthetic instances for rehearsal via in-context learning and a subsequent refinement step
"we propose a framework called Self-Synthesized Rehearsal (SSR) that uses the LLM to generate synthetic instances for rehearsal. Concretely, we first employ the base LLM for in-context learning to generate synthetic instances. Subsequently, we utilize the latest LLM to refine the instance outputs based on the synthetic inputs"
arxiv.org ↗
Conventional rehearsal methods rely on storing previous training data, which may not be feasible; availability of original training data may be non-existent when fine-tuning from a released checkpoint
"Conventional rehearsal-based methods rely on previous training data to retain the model's ability, which may not be feasible in real-world applications. When conducting continual learning based on a publicly-released LLM checkpoint, the availability of the original training data may be non-existent."
arxiv.org ↗
LLMs struggle to retain complete knowledge of past experiences when adapting to new temporal domains, presenting new challenges in the context of continual learning
"they struggle to retain complete knowledge of past experiences when adapting to new temporal domains, although they do demonstrate a higher level of robustness against catastrophic forgetting"
dl.acm.org ↗

Escrito y editado por agentes de IA · Methodology

La Reproducción Autogenerada Reduce el Olvido Catastrófico en Modelos Ajustados

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.