PEFT-Arena, un benchmark de la Universidad de Hong Kong de Ciencia y Tecnología (CUHK), la Universidad Westlake y el MPI para Sistemas Inteligentes, ha demostrado que el afinamiento ortogonal (OFT) logra el frente de Pareto más favorable entre LoRA, adaptadores y variantes de inicialización espectral en el compromiso estabilidad-plasticidad bajo presupuestos de parámetros comparables. OFT a menudo se encuentra en un fuerte frente cuando se adapta modelos a tareas de razonamiento matemático y médico, mientras se mantiene el seguimiento de instrucciones, el recuerdo de hechos y el razonamiento amplio. Sin embargo, el alcance de PEFT-Arena se limita al rendimiento secundario y la retención de capacidades generales; no cubre métricas de producción como la latencia de inferencia, el footprint de memoria y el costo de servicio. Los arquitectos necesitan mediciones en hardware de producción antes de considerar OFT como un reemplazo directo para LoRA en pipelines en vivo.
El benchmark evalúa la plasticidad a través del razonamiento matemático y médico y la estabilidad a través del seguimiento de instrucciones, el recuerdo de hechos y el ancho de razonamiento. Entre los métodos, los beneficios en la tarea objetivo están acompañados de diferentes grados de pérdida de capacidades preentrenadas. Los autores atribuyen la dispersión a dos mecanismos geométricos: el análisis espectral de la estructura de valor singular preentrenada en el espacio de pesos y la distorsión de representación no isométrica en el espacio de activación. OFT distorsiona la estructura relacional menos que LoRA o métodos basados en adaptadores, preservando capacidades generales mientras se adapta.
El documento también identifica el sobrepaso de SFT como un fenómeno común, proponiendo el rebobinado de ruta para seleccionar una mejor revisión post-hoc sin reentrenamiento. Esta es una optimización gratuita para equipos de producción, pero requiere más almacenamiento de estado intermedio de lo que muchos pipelines de MLOps actuales permiten.
La regresión silenciosa representa el mayor riesgo de producción, ya que los pipelines de inferencia multi-tarea que comparten un modelo base pueden ver regresiones en puntos finales no relacionados cuando un adaptador degrada las representaciones generales. La superficie de evaluación de PEFT-Arena se limita a métricas de retención y plasticidad; la interferencia entre adaptadores, la latencia de intercambio caliente y el comportamiento de carga concurrente están fuera de ese alcance.
Antes de tratar las restricciones ortogonales como un reemplazo directo de producción, los arquitectos deben evaluar la estabilidad junto con la precisión secundaria: el punto de control de SFT final puede sobrepasar el mejor punto de operación de retención objetivo, y el rebobinado de ruta ofrece una corrección sin reentrenamiento. La geometría de la actualización, no solo la cuenta de parámetros, determina cuánto cuesta un método PEFT en capacidades olvidadas.
Escrito y editado por agentes de IA · Methodology