Se necesitan pruebas de hardware de producción antes de que OFT reemplace a LoRA a gran escala

PEFT-Arena, un benchmark de la Universidad de Hong Kong de Ciencia y Tecnología (CUHK), la Universidad Westlake y el MPI para Sistemas Inteligentes, ha demostrado que el afinamiento ortogonal (OFT) logra el frente de Pareto más favorable entre LoRA, adaptadores y variantes de inicialización espectral en el compromiso estabilidad-plasticidad bajo presupuestos de parámetros comparables. OFT a menudo se encuentra en un fuerte frente cuando se adapta modelos a tareas de razonamiento matemático y médico, mientras se mantiene el seguimiento de instrucciones, el recuerdo de hechos y el razonamiento amplio. Sin embargo, el alcance de PEFT-Arena se limita al rendimiento secundario y la retención de capacidades generales; no cubre métricas de producción como la latencia de inferencia, el footprint de memoria y el costo de servicio. Los arquitectos necesitan mediciones en hardware de producción antes de considerar OFT como un reemplazo directo para LoRA en pipelines en vivo.

El benchmark evalúa la plasticidad a través del razonamiento matemático y médico y la estabilidad a través del seguimiento de instrucciones, el recuerdo de hechos y el ancho de razonamiento. Entre los métodos, los beneficios en la tarea objetivo están acompañados de diferentes grados de pérdida de capacidades preentrenadas. Los autores atribuyen la dispersión a dos mecanismos geométricos: el análisis espectral de la estructura de valor singular preentrenada en el espacio de pesos y la distorsión de representación no isométrica en el espacio de activación. OFT distorsiona la estructura relacional menos que LoRA o métodos basados en adaptadores, preservando capacidades generales mientras se adapta.

El documento también identifica el sobrepaso de SFT como un fenómeno común, proponiendo el rebobinado de ruta para seleccionar una mejor revisión post-hoc sin reentrenamiento. Esta es una optimización gratuita para equipos de producción, pero requiere más almacenamiento de estado intermedio de lo que muchos pipelines de MLOps actuales permiten.

La regresión silenciosa representa el mayor riesgo de producción, ya que los pipelines de inferencia multi-tarea que comparten un modelo base pueden ver regresiones en puntos finales no relacionados cuando un adaptador degrada las representaciones generales. La superficie de evaluación de PEFT-Arena se limita a métricas de retención y plasticidad; la interferencia entre adaptadores, la latencia de intercambio caliente y el comportamiento de carga concurrente están fuera de ese alcance.

Antes de tratar las restricciones ortogonales como un reemplazo directo de producción, los arquitectos deben evaluar la estabilidad junto con la precisión secundaria: el punto de control de SFT final puede sobrepasar el mejor punto de operación de retención objetivo, y el rebobinado de ruta ofrece una corrección sin reentrenamiento. La geometría de la actualización, no solo la cuenta de parámetros, determina cuánto cuesta un método PEFT en capacidades olvidadas.

Sources

Under comparable parameter budgets, orthogonal finetuning achieves the most favorable Pareto frontier
"Across methods, we find distinct stability-plasticity profiles; under comparable parameter budgets, orthogonal finetuning achieves the most favorable Pareto frontier."
arxiv.org ↗
OFT often lies on a strong frontier, suggesting that geometry of the update plays an important role in preserving general capabilities
"orthogonal finetuning (OFT) often lies on a strong frontier, suggesting that the geometry of the update plays an important role in preserving general capabilities."
arxiv.org ↗
Forgetting is linked to non-isometric representation distortion measured with Procrustes residual, pairwise Gram distortion, and linear CKA
"retention metrics show whether finetuning preserves or distorts general-capability representations, with forgetting linked to non-isometric representation distortion."
arxiv.org ↗
SFT overshoot is a common phenomenon — final checkpoints often move beyond the best target-retention operating point
"an analysis shows that final SFT checkpoints often overshoot a better target-retention operating point. Inspired by this, we present case studies of a post-hoc improvement with path-wise rewinding."
arxiv.org ↗
Spectral analysis in weight space reveals how each PEFT parameterization interacts with the pretrained singular-value structure
"In weight space, spectral analysis reveals how parameterizations interact with the pretrained singular-value structure."
arxiv.org ↗
PEFT-Arena evaluates across two challenging reasoning domains: mathematics and medicine
"a benchmark that jointly measures target-domain performance (plasticity) and general capability retention (stability) across two challenging reasoning domains, mathematics and medicine."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Se necesitan pruebas de hardware de producción antes de que OFT reemplace a LoRA a gran escala

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.