SubFit, una técnica de compresión a nivel de submódulo de la Universidad de Trento, mantiene un 84.6% de precisión en la ejecución de tareas en LLMs sintonizados con instrucciones a una esparcimiento del 25%. Reemplaza módulos de atención e introspección hacia adelante individuales en lugar de podar capas contiguas completas, logrando un factor de degradación de la perplexidad 1.92 veces mejor que la base de datos de capa más fuerte a la misma tasa de compresión. El método, detallado en 'From Layers to Submodules' por Cunegatti et al., puntúa y elimina módulos de atención y FFN de forma independiente a través de índices de capa no contiguas. Cada submódulo eliminado es reemplazado por un bypass residual ajustado al tipo de componente: los módulos de atención reciben una aproximación de baja rangos, mientras que los módulos FFN son reemplazados por un mapa de mayor rangos con una base de entrada compartida en todas las capas FFN seleccionadas para limitar el costo de parámetros implementados. El proceso de calibración después del entrenamiento requiere solo un conjunto de datos de calibración de paso hacia adelante, similar a los flujos de trabajo de cuantificación GPTQ o AWQ, y no requiere retropropagación o reentrenamiento.

La evaluación en diez LLMs, incluyendo cinco modelos base y cinco variantes sintonizadas con instrucciones, a niveles de esparcimiento del 12.5, 18.75, 25, 31.25 y 37.5%, muestra que SubFit degrada la perplexidad en un factor de 2.42 veces al 25% de esparcimiento, mientras que la mejor base de datos degrada en 4.34 veces. La brecha se acelera con la esparcimiento: al 12.5% de esparcimiento, la diferencia es de 0.11 veces, pero crece a 5.69 veces al 37.5%. SubFit es el único método probado que se mantiene por encima del 80% de precisión en la ejecución de tareas al 25% de esparcimiento y por encima del 73% al 37.5%. Los autores afirman que hay mejoras medibles en la velocidad de inferencia y ahorros en caché KV debido a la eliminación de pares clave-valor de los módulos de atención eliminados, pero no proporcionan multiplicadores exactos de latencia, rendimiento o reducción de caché, lo que impide a los arquitectos modelar el TCO.

El despliegue es complejo ya que la eliminación de submódulos no contiguos interrumpe la topología de capa regular optimizada por motores de inferencia como vLLM, TensorRT-LLM y TGI. Implementar los bypass de bajas y bases compartidas eficientemente requeriría núcleos personalizados o al menos pases de reescritura de grafos que no existen en repositorios públicos. El código de los autores aún no es público, listado como en progreso de limpieza, detener la verificación independiente e integración. La calibración después del entrenamiento evita el costo de afinación pero depende de la calidad y coincidencia de dominio de los datos de calibración; un cambio desde la distribución de calibración puede desaliniar los residuos ajustados sin el margen de seguridad proporcionado por la reentrenamiento.

Lo que un arquitecto haría hurtar: tratar las capas como unidades de compresión no monolíticas y aplicar estrategias de reemplazo específicas de submódulo con selección no contigua, ya que la redundancia en los transformadores preentrenados se distribuye de manera desigual a lo largo de los blocos de atención y FFN en lugar de agruparse en rangos de profundidad contiguos.

Escrito y editado por agentes de IA · Methodology