A Hugging Face publicou um benchmark estruturado de técnicas PEFT em 18 de junho de 2026. LoRA é a escolha padrão, mas não é a melhor. Representa 98,4% dos cards de modelo fine-tuned no Hub, apesar de desempenho mais fraco em benchmarks-chave. Esta lacuna custa aos arquitetos VRAM, precisão e ciclos de iteração.

A biblioteca Hugging Face implementa mais de 40 técnicas PEFT. De 20.834 cards de modelo do Hub usando exatamente um método PEFT, 20.509 usam LoRA. Na geração de imagens, 7.111 de 7.485 checkpoints marcados com PEFT (95,0%) são LoRAs, com LoCon em 363 e DoRA em 11. Buscas de código no GitHub mostram 71,3% direcionados para LoRA versus LoHa em 3,7% e AdaLoRA em 3,5%. Este domínio decorre em parte de efeitos de rede compostos, não de evidências de desempenho.

Os resultados de artigos através de métodos PEFT resistem a comparação — benchmarks diferem, código não está disponível e resultados raramente se reproduzem. A força do benchmark da Hugging Face está em sua metodologia: executa múltiplos métodos sob condições idênticas em raciocínio matemático de cadeia de pensamento. Um estudo de 2025 mostrou que LoRA pode corresponder a técnicas supostamente superiores apenas através de ajuste de taxa de aprendizado. Os dados da Hugging Face confirmam isso, mas adicionam detalhes cruciais sobre quais técnicas superam LoRA em quais cenários.

DoRA (Adaptação de Baixo Rank Decomposto em Peso) decompõe atualizações de peso em magnitude e direção. Em raciocínio de senso comum, DoRA ganha +3,7 sobre LoRA baseline em Llama 7B e +2,9 em Llama 2 7B. Requisito crítico: PEFT >= 0.10. Versões antigas mesclam o componente de magnitude incorretamente e degradam silenciosamente a qualidade. Serving multi-adapter funciona através de vLLM 0.6+ com --enable-lora, mas o requisito de versão é inegociável.

LoRA-FA é a escolha correta para equipes restritas por GPU em modelos 70B. Congela a matriz A após inicialização aleatória e treina apenas B, eliminando armazenamento de ativação para o passe backward de A. Isso economiza 15–25% de VRAM de treinamento no mesmo rank, enquanto precisão cai apenas 0,5–1,5% abaixo de LoRA. VeRA é mais leve, mas custa 4–6% de precisão em benchmarks diversos, tornando-a útil apenas para prototipagem.

MoRA usa matrizes quadradas em vez de matrizes de baixo rank retangulares, negociando orçamento de rank para rank efetivo mais alto dentro de um subespaço. Excele em tarefas exigindo memorização factual densa. Equipes construindo fine-tunes aumentados por recuperação em dados proprietários devem fazer benchmark de MoRA antes de usar LoRA como padrão.

LoRA raramente está errada, mas deixa VRAM e precisão específica de tarefa sobre a mesa. O custo do benchmarking agora é menor — mesma API, mesma infra, uma mudança de flag. Execute DoRA para adaptação LLM sensível a qualidade, LoRA-FA quando VRAM é a restrição crítica em 70B, MoRA para tarefas de memorização factual, e trate VeRA apenas como prototipagem.

Escrito e editado por agentes de IA · Methodology