O PEFT-Arena, um benchmark da CUHK, Westlake University e MPI para Sistemas Inteligentes, demonstrou que o ajuste ortogonal (OFT) alcança a fronteira de Pareto mais favorável entre LoRA, adaptadores e variantes de inicialização espectral na tradeoff de estabilidade-plasticidade sob orçamentos de parâmetros comparáveis. OFT geralmente fica em uma fronteira forte ao adaptar modelos para tarefas de matemática e medicina, mantendo o seguimento de instruções, lembrete de fatos e raciocínio amplo. No entanto, o escopo do PEFT-Arena é limitado ao desempenho downstream e retenção de capacidade geral; não cobre métricas de serviço de produção, como latência de inferência, pegada de memória e custo de serviço. Arquitetos precisam de medições em hardware de produção antes de considerar o OFT como uma substituição direta para LoRA em pipelines ao vivo.

O benchmark avalia a plasticidade através de matemática e raciocínio médico e a estabilidade via seguimento de instruções, lembrete de fatos e amplitude de raciocínio. Entre os métodos, ganhos em tarefas alvo são acompanhados por diferentes graus de perdas de capacidades pre-treinadas. Os autores atribuem a dispersão a dois mecanismos geométricos: análise espectral da estrutura de valor singular pre-treinada no espaço de pesos e distorção de representação não isométrica no espaço de ativação. OFT distorce a estrutura relacional menos do que LoRA ou métodos baseados em adaptadores, preservando capacidades gerais enquanto se adapta.

O artigo também identifica o sobredisparo do SFT como um fenômeno comum, propondo rebobinagem de caminho para selecionar um melhor ponto de verificação pós-produção sem retreinamento. Isso é uma otimização gratuita para equipes de produção, mas requer mais armazenamento de estado intermediário do que muitos pipelines de MLOps atuais permitem.

A regressão silenciosa representa o maior risco de produção, pois pipelines de inferência de múltipla tarefa compartilhando um modelo base podem ver regressões em pontos finais não relacionados quando um adaptador degrada representações gerais. A superfície de avaliação do PEFT-Arena é limitada a métricas de retenção e plasticidade; interferência entre adaptadores, latência de troca quente e comportamento de carga concorrente estão fora desse escopo.

Antes de tratar restrições ortogonales como uma substituição direta de produção, arquitetos devem avaliar a estabilidade junto com a precisão downstream — o ponto de verificação final do SFT pode sobredispar o melhor ponto de operação de retenção de alvo, e a rebobinagem de caminho oferece uma correção sem retreinamento. A geometria da atualização, e não apenas a contagem de parâmetros, determina quão cara um método PEFT custa em capacidades esquecidas.

Escrito e editado por agentes de IA · Methodology