GiVA reduce el rango del fine-tuning vectorial en 8× para igualar la velocidad de entrenamiento de LoRA

Un equipo de la University of Illinois Urbana-Champaign, Amazon y Stanford ha publicado GiVA (Gradient-Informed Bases for Vector-Based Adaptation), un método de fine-tuning eficiente en parámetros que reduce los requisitos de rango de la adaptación vectorial en 8× — suficiente para igualar la velocidad de entrenamiento de LoRA mientras preserva la eficiencia de parámetros que hace atractivos los enfoques vectoriales.

LoRA domina los stacks de fine-tuning empresarial al descomponer las actualizaciones de pesos en un producto de dos matrices de bajo rango, reduciendo drásticamente los parámetros entrenables. Los métodos vectoriales como VeRA y OSoRA van más allá: congelan completamente las matrices de bajo rango y entrenan únicamente vectores de escala ligeros sobre ellas, reduciendo aún más el conteo de parámetros. La contrapartida es el rango. Para igualar la precisión de LoRA, VeRA típicamente opera con rango 1024 frente al rango 16 de LoRA — y esa brecha de rango se traduce directamente en costo de tiempo de ejecución. En una tarea de razonamiento de sentido común con Qwen 2 (0.5B) y 15.000 ejemplos de entrenamiento, VeRA requiere aproximadamente 2,5× el tiempo de ejecución de LoRA para alcanzar un rendimiento comparable.

GiVA ataca esa ineficiencia en la etapa de inicialización. En lugar de extraer bases congeladas de distribuciones aleatorias (el enfoque de VeRA) o derivarlas de los pesos preentrenados (OSoRA), GiVA calcula una descomposición en valores singulares del gradiente de la función de pérdida respecto a cada matriz de pesos en el checkpoint preentrenado. Los vectores singulares derechos — que capturan las direcciones en el espacio de pesos hacia las que la tarea ya está convergiendo — se convierten en las bases congeladas. Solo se entrenan los vectores de escala. Dado que las bases codifican señal relevante para la tarea antes de un solo paso de gradiente, el modelo necesita mucho menos rango para converger: el artículo reporta una reducción de rango de 8× respecto a métodos vectoriales existentes mientras iguala los tiempos de entrenamiento de LoRA.

Para ingenieros de ML empresariales en clústeres de GPU compartidos o con recursos limitados, GiVA ofrece un camino confiable hacia latencia y precisión comparables a LoRA con la huella de almacenamiento de la adaptación vectorial. Esa ventaja de almacenamiento importa en dos patrones que ganan adopción: fine-tuning federado, donde las actualizaciones de adaptadores deben serializarse y transmitirse entre nodos, y serving de mixture-of-experts, donde muchos adaptadores específicos de tarea deben coexistir en memoria simultáneamente.

GiVA no es un reemplazo de LoRA en el sentido convencional. Su diseño de bases congeladas significa que no puede fusionarse de vuelta a la matriz de pesos base como lo hacen los adaptadores LoRA, lo que afecta la flexibilidad del camino de inferencia. Los equipos que dependen de la fusión de pesos para una implementación con cero overhead seguirán recurriendo a LoRA o sus variantes. Donde GiVA compite es en la economía del entrenamiento: está dirigido a equipos que ya usan VeRA u OSoRA como alternativa de reemplazo, y a equipos que permanecieron con LoRA únicamente porque los métodos vectoriales eran demasiado lentos.

La evaluación abarca benchmarks de comprensión del lenguaje natural, generación de lenguaje natural y clasificación de imágenes. El artículo reporta que GiVA supera o iguala consistentemente tanto a LoRA como a los métodos vectoriales existentes en esas tareas. Los números por benchmark y los datos completos de ablación están en el artículo. Los autores aún no han publicado un repositorio de código ni una integración con la biblioteca Hugging Face PEFT, el camino estándar hacia la adopción empresarial.

La idea de inicialización por gradiente-SVD no es completamente nueva — PiSSA y métodos similares derivan bases LoRA de SVDs de pesos — pero aplicarla al gradiente en lugar de la matriz de pesos es una distinción significativa: los gradientes codifican hacia dónde quiere moverse el paisaje de pérdida, no dónde se encuentran actualmente los pesos. El artículo no evalúa modelos de más de 0.5B parámetros, lo que deja la escalabilidad como la principal pregunta abierta.

Sources

GiVA reduces rank requirements of vector-based adaptation by a factor of eight compared to existing vector-based methods
"Experiments show that our approach consistently outperforms or achieves performance competitive with existing vector-based adaptation methods and LoRA while reducing rank requirements by a factor of eight (8×)."
arxiv.org ↗
GiVA achieves training times comparable to LoRA
"It achieves training times comparable to LoRA and maintains the extreme parameter efficiency of vector-based adaptation."
arxiv.org ↗
VeRA requires approximately 2.5× the runtime of LoRA on Qwen 2 (0.5B) fine-tuning on 15K commonsense reasoning examples
"fine-tuning Qwen 2 (0.5B) on 15K commonsense reasoning examples from Hu et al. (2023) using VeRA (Kopiczko et al., 2024) requires approximately 2.5× the runtime of LoRA to achieve comparable performance"
arxiv.org ↗
VeRA's higher rank overhead — 1024 versus 16 in LoRA — is the primary source of its 2.5× runtime penalty
"This additional overhead is primarily due to VeRA's higher rank—1024 versus 16 in LoRA."
arxiv.org ↗
GiVA initializes frozen bases by computing an SVD of the gradient of the loss evaluated at the pre-trained weights, rather than using random initialization (VeRA) or pre-trained weight SVD (OSoRA)
"GiVA (ours) U,Σ,V←SVD(∇W ℒ(Wpt)) A←VrT, BTB=𝕀r×r"
arxiv.org ↗
In vector-based adaptation, only the scaling vectors are trained; the low-rank bases are frozen throughout fine-tuning
"Since only the scaling vectors are trained, they reduce the number of trainable parameters to an even greater extent than LoRA-like approaches, making them extremely parameter- and storage-efficient."
arxiv.org ↗
Vector-based adaptation is particularly relevant for federated fine-tuning and mixture-of-experts architectures
"This efficiency is particularly appealing in resource-constrained applications, such as scenarios where model updates must be communicated over a network (e.g., federated learning or multi-device fine-tuning), and in mixture-of-experts"
arxiv.org ↗
GiVA is evaluated across natural language understanding, natural language generation, and image classification benchmarks
"We evaluate GiVA across diverse benchmarks, including natural language understanding, natural language generation, and image classification."
arxiv.org ↗
GiVA is co-authored by researchers from University of Illinois Urbana-Champaign, Amazon, and Stanford University
"Neeraj Gangwar† Rishabh Deshmukh§ Michael Shavlovsky§ Hancao Li§ Vivek Mittal§ Lexing Ying¶ Nickvash Kani† †University of Illinois Urbana-Champaign §Amazon ¶Stanford University"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology