GiVA reduz o rank do fine-tuning vetorial em 8× para igualar a velocidade de treino do LoRA

Uma equipe da University of Illinois Urbana-Champaign, Amazon e Stanford publicou o GiVA (Gradient-Informed Bases for Vector-Based Adaptation), um método de fine-tuning com eficiência de parâmetros que reduz os requisitos de rank da adaptação vetorial em 8× — o suficiente para igualar a velocidade de treino do LoRA enquanto preserva a eficiência de parâmetros que torna as abordagens vetoriais atrativas.

O LoRA domina os stacks de fine-tuning corporativo ao decompor as atualizações de pesos em um produto de duas matrizes de baixo rank, reduzindo drasticamente os parâmetros treináveis. Métodos vetoriais como VeRA e OSoRA vão além: congelam as matrizes de baixo rank por completo e treinam apenas vetores de escalonamento leves sobre elas, reduzindo ainda mais as contagens de parâmetros. A contrapartida é o rank. Para igualar a acurácia do LoRA, o VeRA tipicamente opera com rank 1024 contra rank 16 do LoRA — e essa diferença de rank se traduz diretamente em custo de tempo de execução. Em uma tarefa de raciocínio de senso comum com Qwen 2 (0.5B) e 15.000 exemplos de treinamento, o VeRA requer aproximadamente 2,5× o tempo de execução do LoRA para atingir desempenho comparável.

O GiVA ataca essa ineficiência na etapa de inicialização. Em vez de extrair bases congeladas de distribuições aleatórias (abordagem do VeRA) ou derivá-las dos pesos pré-treinados (OSoRA), o GiVA calcula uma decomposição em valores singulares do gradiente da função de perda em relação a cada matriz de pesos no checkpoint pré-treinado. Os vetores singulares à direita — capturando as direções no espaço de pesos para as quais a tarefa já está convergindo — tornam-se as bases congeladas. Apenas os vetores de escalonamento são treinados. Como as bases codificam sinal relevante para a tarefa antes de um único passo de gradiente, o modelo precisa de muito menos rank para convergir: o artigo relata uma redução de rank de 8× em relação a pares vetoriais existentes enquanto iguala os tempos de treino do LoRA.

Para engenheiros de ML corporativos em clusters de GPU compartilhados ou restritos, o GiVA oferece um caminho confiável para latência e acurácia comparáveis ao LoRA com a pegada de armazenamento da adaptação vetorial. Essa vantagem de armazenamento importa em dois padrões que ganham adoção: fine-tuning federado, onde as atualizações de adaptadores precisam ser serializadas e transmitidas entre nós, e serving de mixture-of-experts, onde muitos adaptadores específicos de tarefa devem coexistir na memória simultaneamente.

O GiVA não é uma substituição do LoRA no sentido convencional. Seu design de bases congeladas significa que ele não pode ser mesclado de volta à matriz de pesos base da forma que os adaptadores LoRA podem, afetando a flexibilidade do caminho de inferência. Equipes que dependem de mesclagem de pesos para implantação com overhead zero ainda recorrerão ao LoRA ou suas variantes. Onde o GiVA compete é na economia de treino: ele tem como alvo equipes que já usam VeRA ou OSoRA como alternativa substituta, e equipes que permaneceram com o LoRA apenas porque os métodos vetoriais eram lentos demais.

A avaliação abrange benchmarks de compreensão de linguagem natural, geração de linguagem natural e classificação de imagens. O artigo relata que o GiVA consistentemente supera ou iguala tanto o LoRA quanto os métodos vetoriais existentes nessas tarefas. Números por benchmark e dados completos de ablação estão no artigo. Os autores ainda não lançaram um repositório de código ou uma integração com a biblioteca Hugging Face PEFT, o caminho padrão para adoção corporativa.

A ideia de inicialização por gradiente-SVD não é inteiramente nova — PiSSA e métodos similares derivam bases LoRA de SVDs de pesos — mas aplicá-la ao gradiente em vez da matriz de pesos é uma distinção relevante: gradientes codificam para onde a superfície de perda quer se mover, não onde os pesos atualmente se encontram. O artigo não avalia modelos maiores que 0.5B parâmetros, deixando a escalabilidade como a principal questão em aberto.

Sources

GiVA reduces rank requirements of vector-based adaptation by a factor of eight compared to existing vector-based methods
"Experiments show that our approach consistently outperforms or achieves performance competitive with existing vector-based adaptation methods and LoRA while reducing rank requirements by a factor of eight (8×)."
arxiv.org ↗
GiVA achieves training times comparable to LoRA
"It achieves training times comparable to LoRA and maintains the extreme parameter efficiency of vector-based adaptation."
arxiv.org ↗
VeRA requires approximately 2.5× the runtime of LoRA on Qwen 2 (0.5B) fine-tuning on 15K commonsense reasoning examples
"fine-tuning Qwen 2 (0.5B) on 15K commonsense reasoning examples from Hu et al. (2023) using VeRA (Kopiczko et al., 2024) requires approximately 2.5× the runtime of LoRA to achieve comparable performance"
arxiv.org ↗
VeRA's higher rank overhead — 1024 versus 16 in LoRA — is the primary source of its 2.5× runtime penalty
"This additional overhead is primarily due to VeRA's higher rank—1024 versus 16 in LoRA."
arxiv.org ↗
GiVA initializes frozen bases by computing an SVD of the gradient of the loss evaluated at the pre-trained weights, rather than using random initialization (VeRA) or pre-trained weight SVD (OSoRA)
"GiVA (ours) U,Σ,V←SVD(∇W ℒ(Wpt)) A←VrT, BTB=𝕀r×r"
arxiv.org ↗
In vector-based adaptation, only the scaling vectors are trained; the low-rank bases are frozen throughout fine-tuning
"Since only the scaling vectors are trained, they reduce the number of trainable parameters to an even greater extent than LoRA-like approaches, making them extremely parameter- and storage-efficient."
arxiv.org ↗
Vector-based adaptation is particularly relevant for federated fine-tuning and mixture-of-experts architectures
"This efficiency is particularly appealing in resource-constrained applications, such as scenarios where model updates must be communicated over a network (e.g., federated learning or multi-device fine-tuning), and in mixture-of-experts"
arxiv.org ↗
GiVA is evaluated across natural language understanding, natural language generation, and image classification benchmarks
"We evaluate GiVA across diverse benchmarks, including natural language understanding, natural language generation, and image classification."
arxiv.org ↗
GiVA is co-authored by researchers from University of Illinois Urbana-Champaign, Amazon, and Stanford University
"Neeraj Gangwar† Rishabh Deshmukh§ Michael Shavlovsky§ Hancao Li§ Vivek Mittal§ Lexing Ying¶ Nickvash Kani† †University of Illinois Urbana-Champaign §Amazon ¶Stanford University"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology