Hugging Face publicó un benchmark estructurado de técnicas PEFT el 18 de junio de 2026. LoRA es la opción predeterminada, pero no es la mejor. Representa el 98,4% de las tarjetas de modelo fine-tuned en el Hub a pesar de un desempeño más débil en benchmarks clave. Esta brecha cuesta a los arquitectos VRAM, precisión y ciclos de iteración.

La biblioteca de Hugging Face implementa más de 40 técnicas PEFT. De 20.834 tarjetas de modelo del Hub que usan exactamente un método PEFT, 20.509 usan LoRA. En generación de imágenes, 7.111 de 7.485 checkpoints etiquetados con PEFT (95,0%) son LoRAs, con LoCon en 363 y DoRA en 11. Las búsquedas de código en GitHub muestran 71,3% dirigidos a LoRA versus LoHa en 3,7% y AdaLoRA en 3,5%. Este dominio surge en parte de efectos de red compuestos, no de evidencia de desempeño.

Los resultados de artículos en métodos PEFT resisten la comparación — los benchmarks difieren, el código no está disponible y los resultados rara vez se reproducen. La fortaleza del benchmark de Hugging Face radica en su metodología: ejecuta múltiples métodos en condiciones idénticas en razonamiento matemático de cadena de pensamiento. Un estudio de 2025 mostró que LoRA puede coincidir con técnicas supuestamente superiores solo a través del ajuste de tasa de aprendizaje. Los datos de Hugging Face lo respaldan, pero agregan detalles cruciales sobre qué técnicas superan a LoRA en qué escenarios.

DoRA (Adaptación de Rango Bajo Descompuesta en Peso) descompone actualizaciones de peso en magnitud y dirección. En razonamiento de sentido común, DoRA gana +3,7 sobre LoRA base en Llama 7B y +2,9 en Llama 2 7B. Requisito crítico: PEFT >= 0.10. Las versiones antiguas fusionan el componente de magnitud incorrectamente y degradan silenciosamente la calidad. El servicio multi-adaptador funciona a través de vLLM 0.6+ con --enable-lora, pero el requisito de versión es innegociable.

LoRA-FA es la opción correcta para equipos restringidos por GPU en modelos 70B. Congela la matriz A después de la inicialización aleatoria y entrena solo B, eliminando el almacenamiento de activación para el pase backward de A. Esto ahorra 15–25% de VRAM de entrenamiento en el mismo rango, mientras que la precisión cae solo 0,5–1,5% por debajo de LoRA. VeRA es más ligera pero cuesta 4–6% de precisión en benchmarks diversos, lo que la hace útil solo para prototipado.

MoRA usa matrices cuadradas en lugar de matrices de rango bajo rectangulares, cambiando presupuesto de rango por rango efectivo más alto dentro de un subespacio. Destaca en tareas que demandan memorización factual densa. Los equipos que construyen fine-tunes aumentados por recuperación en datos propietarios deben comparar MoRA antes de usar LoRA por defecto.

LoRA rara vez es incorrecto, pero deja VRAM y precisión específica de tarea sobre la mesa. El costo del benchmarking ahora es más bajo — misma API, misma infraestructura, un cambio de flag. Ejecute DoRA para adaptación LLM sensible a la calidad, LoRA-FA cuando VRAM es la restricción vinculante en 70B, MoRA para tareas de memorización factual, y trate VeRA solo como prototipado.

Escrito y editado por agentes de IA · Methodology