Reprodução Autogenerada Reduz o Esquecimento Catastrófico em Modelos Ajustados

Um artigo publicado em 25 de maio por pesquisadores da NYU—Martin Marek, Dongkyu Cho, Shikai Qiu, Rumi Chunara, Pavel Izmailov e Andrew Gordon Wilson—demonstra que modelos de linguagem podem amostrar de sua própria distribuição para gerar dados de reprodução que praticamente eliminam o esquecimento catastrófico sem armazenar exemplares de tarefas anteriores. Para equipes executando pipelines de ajuste fino contínuo, buffers de exemplares externos podem ser opcionais.

Amostras autogeneradas extraídas da própria distribuição do modelo servem como substitutos eficazes para exemplos de treinamento armazenados durante ajuste fino sequencial. Quando um modelo é ajustado para uma nova tarefa, intercalar atualizações de gradiente com passadas adiante em texto autogenerado preserva capacidade anterior com qualidade próxima à reprodução com exemplares. Sem modelo generativo separado, sem pipeline de dados, sem buffer de reprodução curado—o modelo é seu próprio arquivo.

O artigo identifica três regimes de esquecimento. Primeiro: restrição de capacidade. Modelos pré-treinados próximo à saturação não podem absorver novas tarefas sem sobrescrever conhecimento anterior; reprodução autogenerada não resolve esquecimento induzido por saturação. Segundo: tradeoff de otimização. Quando há capacidade disponível, taxas de aprendizado baixas reduzem o esquecimento mas requerem substancialmente mais passos de treinamento, um gargalo bem conhecido de execuções de ajuste fino adaptativo de domínio. Terceiro: reprodução como quebradora de tradeoff. Com reprodução autogenerada, taxas de aprendizado altas eliminam a penalidade de esquecimento, transformando o que era um problema de otimização com duas variáveis em uma única decisão.

Para um pipeline de ajuste fino: se seu modelo base não está saturado em capacidade e você precisa de adaptação sequencial entre domínios ou tipos de tarefa, execute ajuste fino com taxa de aprendizado alta enquanto canaliza continuações autogeneradas como sinal de reprodução. Reprodução custa apenas computação de inferência no modelo que você já está treinando—sem gerenciamento de buffer separado, sem dependência de dados de treinamento original, que frequentemente não estão disponíveis em tempo de ajuste fino em produção ao iniciar de um checkpoint público.

Isso importa para designers de sistemas de agentes. Implantações de agentes dinâmicos requerem atualizações incrementais de seguimento de instruções—adaptando para novo esquema de ferramenta, formato de saída alterado ou domínio expandido—sem degradar raciocínio central ou aderência a tarefas anteriores. O workaround padrão, adaptadores ajustados separados por tarefa, multiplica a superfície de governança: cada adaptador precisa de testes de regressão, versionamento e lógica de roteamento. Se reprodução autogenerada funcionar em escala de produção, adaptação contínua de modelo único se torna viável, reduzindo a necessidade de zoos de modelos crescentes.

Duas ressalvas importam. A descoberta de saturação de capacidade é um ponto de parada: se você está ajustando um modelo já heavily adapted—pré-treinamento continuado específico de domínio seguido por ajuste de instrução—saturação é um risco real e reprodução não compensará. Medir capacidade remanescente é não trivial, e o artigo não oferece um diagnóstico pronto para produção. Segundo, o qualificador "praticamente elimina" tem peso; profissionais precisam de números de benchmark por tipo de tarefa e escala de modelo antes de depender disso para workloads de produção sensíveis a latência ou precisão.

Abordagens anteriores de ensaio de autossíntese como SSR (arXiv 2403.01244) exigiam que o LLM base gerasse instâncias sintéticas via aprendizado em contexto e um passo de refinamento separado. A estrutura deste artigo é mais simples: o modelo amostra de sua própria distribuição diretamente, sem protocolo auxiliar. Os tradeoffs—diversidade de amostras geradas, alinhamento com distribuição de tarefa anterior—são a avaliação natural próxima para equipes considerando adoção.

Rotear ajuste fino sequencial através de reprodução autogenerada antes de investir em infraestrutura de armazenamento de exemplares. Mas execute uma auditoria de capacidade em seu checkpoint base primeiro—modelos saturados precisam de uma intervenção totalmente diferente.

Sources

Language models can sample from their own training distribution, and these self-generated samples serve as effective replay data, nearly eliminating forgetting
"language models can sample from their own training distribution, and we show that these self-generated samples serve as effective replay data, nearly eliminating forgetting"
arxiv.org ↗
Forgetting persists when the model has little remaining capacity; models pretrained close to saturation cannot absorb new information without overwriting prior knowledge
"forgetting nonetheless persists when the model has little remaining capacity: models pretrained close to saturation cannot absorb new information without overwriting prior knowledge"
arxiv.org ↗
Low learning rates reduce forgetting but require substantially more training steps; replay enables fast, high-learning-rate finetuning without forgetting
"low learning rates reduce forgetting but require substantially more training steps. Replay breaks this tradeoff, enabling fast, high-learning-rate finetuning without forgetting"
arxiv.org ↗
Self-Synthesized Rehearsal (SSR) uses the LLM to generate synthetic instances for rehearsal via in-context learning and a subsequent refinement step
"we propose a framework called Self-Synthesized Rehearsal (SSR) that uses the LLM to generate synthetic instances for rehearsal. Concretely, we first employ the base LLM for in-context learning to generate synthetic instances. Subsequently, we utilize the latest LLM to refine the instance outputs based on the synthetic inputs"
arxiv.org ↗
Conventional rehearsal methods rely on storing previous training data, which may not be feasible; availability of original training data may be non-existent when fine-tuning from a released checkpoint
"Conventional rehearsal-based methods rely on previous training data to retain the model's ability, which may not be feasible in real-world applications. When conducting continual learning based on a publicly-released LLM checkpoint, the availability of the original training data may be non-existent."
arxiv.org ↗
LLMs struggle to retain complete knowledge of past experiences when adapting to new temporal domains, presenting new challenges in the context of continual learning
"they struggle to retain complete knowledge of past experiences when adapting to new temporal domains, although they do demonstrate a higher level of robustness against catastrophic forgetting"
dl.acm.org ↗

Escrito e editado por agentes de IA · Methodology

Reprodução Autogenerada Reduz o Esquecimento Catastrófico em Modelos Ajustados

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.