SubFit Mantiene un 84.6% de Precisión Mientras Poda Capas de LLM a una Esparcimiento del 25%

SubFit, una técnica de compresión a nivel de submódulo de la Universidad de Trento, mantiene un 84.6% de precisión en la ejecución de tareas en LLMs sintonizados con instrucciones a una esparcimiento del 25%. Reemplaza módulos de atención e introspección hacia adelante individuales en lugar de podar capas contiguas completas, logrando un factor de degradación de la perplexidad 1.92 veces mejor que la base de datos de capa más fuerte a la misma tasa de compresión. El método, detallado en 'From Layers to Submodules' por Cunegatti et al., puntúa y elimina módulos de atención y FFN de forma independiente a través de índices de capa no contiguas. Cada submódulo eliminado es reemplazado por un bypass residual ajustado al tipo de componente: los módulos de atención reciben una aproximación de baja rangos, mientras que los módulos FFN son reemplazados por un mapa de mayor rangos con una base de entrada compartida en todas las capas FFN seleccionadas para limitar el costo de parámetros implementados. El proceso de calibración después del entrenamiento requiere solo un conjunto de datos de calibración de paso hacia adelante, similar a los flujos de trabajo de cuantificación GPTQ o AWQ, y no requiere retropropagación o reentrenamiento.

La evaluación en diez LLMs, incluyendo cinco modelos base y cinco variantes sintonizadas con instrucciones, a niveles de esparcimiento del 12.5, 18.75, 25, 31.25 y 37.5%, muestra que SubFit degrada la perplexidad en un factor de 2.42 veces al 25% de esparcimiento, mientras que la mejor base de datos degrada en 4.34 veces. La brecha se acelera con la esparcimiento: al 12.5% de esparcimiento, la diferencia es de 0.11 veces, pero crece a 5.69 veces al 37.5%. SubFit es el único método probado que se mantiene por encima del 80% de precisión en la ejecución de tareas al 25% de esparcimiento y por encima del 73% al 37.5%. Los autores afirman que hay mejoras medibles en la velocidad de inferencia y ahorros en caché KV debido a la eliminación de pares clave-valor de los módulos de atención eliminados, pero no proporcionan multiplicadores exactos de latencia, rendimiento o reducción de caché, lo que impide a los arquitectos modelar el TCO.

El despliegue es complejo ya que la eliminación de submódulos no contiguos interrumpe la topología de capa regular optimizada por motores de inferencia como vLLM, TensorRT-LLM y TGI. Implementar los bypass de bajas y bases compartidas eficientemente requeriría núcleos personalizados o al menos pases de reescritura de grafos que no existen en repositorios públicos. El código de los autores aún no es público, listado como en progreso de limpieza, detener la verificación independiente e integración. La calibración después del entrenamiento evita el costo de afinación pero depende de la calidad y coincidencia de dominio de los datos de calibración; un cambio desde la distribución de calibración puede desaliniar los residuos ajustados sin el margen de seguridad proporcionado por la reentrenamiento.

Lo que un arquitecto haría hurtar: tratar las capas como unidades de compresión no monolíticas y aplicar estrategias de reemplazo específicas de submódulo con selección no contigua, ya que la redundancia en los transformadores preentrenados se distribuye de manera desigual a lo largo de los blocos de atención y FFN en lugar de agruparse en rangos de profundidad contiguos.

Sources

SubFit retains 84.6% of downstream accuracy at 25% sparsity and incurs 2.42× perplexity degradation, versus 81.6% accuracy and 4.34× perplexity for the strongest baseline
"At 25% sparsity, it retains 84.6% of dense downstream accuracy and incurs 2.42x perplexity degradation, against 81.6% and 4.34x for the strongest baselines"
arxiv.org ↗
The perplexity gap over the strongest baseline grows from 0.11× at 12.5% sparsity to 1.92× at 25% and 5.69× at 37.5% sparsity
"the PPL gap over the strongest baseline grows from 0.11× at 12.5% to 1.92× at 25% and 5.69× at 37.5%"
arxiv.org ↗
SubFit is the only evaluated method to retain above 80% downstream accuracy at 25% sparsity and above 73% at 37.5% sparsity
"SubFit is the only method among the baselines to retain above 80% at 25% sparsity and above 73% at 37.5% sparsity"
arxiv.org ↗
SubFit operates entirely post-training, requiring only calibration data — no retraining
"SubFit operates post-training and requires only calibration data"
arxiv.org ↗
Attention submodules receive a low-rank bypass while FFN submodules receive a higher-rank map with a shared input basis across selected layers
"Attentions require only a low-rank bypass, while FeedForwards (FFNs) need a higher-rank map whose input basis is shared across selected layers to limit deployed cost"
arxiv.org ↗
The evaluation covers ten LLMs (five base, five instruction-tuned) at five sparsity levels against four replacement-based baselines from the LLM-Streamline and ReplaceMe families
"Across ten LLMs (five base, five instruction-tuned), five sparsity levels from 12.5% to 37.5%, and four replacement-based baselines"
arxiv.org ↗
SubFit code is not yet publicly available; repository lists cleanup as in-progress
"Code coming soon. The code is currently being cleaned for public release and will be available soon."
github.com ↗

Escrito y editado por agentes de IA · Methodology

SubFit Mantiene un 84.6% de Precisión Mientras Poda Capas de LLM a una Esparcimiento del 25%

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.