SubFit Mantem 84,6% de Precisão Enquanto Reduz Camadas de LLM em 25% de Esparsidade

SubFit, uma técnica de compressão a nível de submódulo da Universidade de Trento, mantém uma precisão downstream de 84,6% em LLMs alinhados a instruções com 25% de esparsidade. Ela substitui submódulos de atenção e avanço feed-forward individualmente, em vez de podar camadas inteiras contíguas, alcançando um fator de degradação da perplexidade 1,92 vezes melhor do que a base de camada mais forte na mesma taxa de compressão. O método, detalhado em "From Layers to Submodules" por Cunegatti et al., avalia e remove submódulos de atenção e FFN independentemente em índices de camada não contíguos. Cada submódulo removido é substituído por um bypass residual ajustado ao tipo de componente: submódulos de atenção recebem uma aproximação de baixa rank, enquanto submódulos FFN são substituídos por um mapa de alta rank com uma base de entrada compartilhada em todas as camadas FFN selecionadas para limitar o custo de parâmetros implantados. O processo de calibração pós-treinamento requer apenas um conjunto de dados de calibração de passagem para frente, semelhante aos fluxos de trabalho de quantização GPTQ ou AWQ, e nenhuma retropropagação ou re-treinamento.

A avaliação em dez LLMs, incluindo cinco modelos base e cinco variantes alinhadas a instruções, em níveis de esparsidade de 12,5, 18,75, 25, 31,25 e 37,5%, mostra que SubFit degrada a perplexidade em um fator de 2,42 vezes em 25% de esparsidade, enquanto a melhor base degrada em 4,34 vezes. A lacuna acelera com a esparsidade: em 12,5% de esparsidade, a margem é de 0,11 vezes, mas cresce para 5,69 vezes em 37,5%. SubFit é o único método testado que permanece acima de 80% de precisão downstream em 25% de esparsidade e acima de 73% em 37,5%. Os autores afirmam ganhos mensuráveis de velocidade de inferência e economia no cache KV devido à eliminação de pares de chave-valor dos submódulos de atenção removidos, mas não fornecem multiplicadores exatos de latência, throughput ou redução de cache, impedindo que arquitetos modelem o TCO.

A implantação é complexa, pois a remoção de submódulos não contíguos interrompe a topologia de camada regular otimizada por motores de inferência como vLLM, TensorRT-LLM e TGI. Implementar os bypasses de baixa rank e base compartilhada eficientemente exigiria kernels personalizados ou, pelo menos, passagens de reescrita de grafo que não existem em repositórios públicos. O código dos autores ainda não é público, listado como em progresso de limpeza, interrompendo a verificação e integração independente. A calibração pós-treinamento evita o custo de ajuste fino, mas depende da qualidade e correspondência de domínio dos dados de calibração; uma mudança da distribuição de calibração pode desalinharse dos resíduos ajustados sem a margem de segurança fornecida pela re-treinamento.

O que um arquiteto roubaria: tratar camadas como unidades de compressão não monolíticas e aplicar estratégias de substituição específicas de submódulo com seleção não contígua, pois a redundância nos transformadores pré-treinados é distribuída de forma desigual entre blocos de atenção e FFN, em vez de agrupada em intervalos de profundidade contíguos.

Sources

SubFit retains 84.6% of downstream accuracy at 25% sparsity and incurs 2.42× perplexity degradation, versus 81.6% accuracy and 4.34× perplexity for the strongest baseline
"At 25% sparsity, it retains 84.6% of dense downstream accuracy and incurs 2.42x perplexity degradation, against 81.6% and 4.34x for the strongest baselines"
arxiv.org ↗
The perplexity gap over the strongest baseline grows from 0.11× at 12.5% sparsity to 1.92× at 25% and 5.69× at 37.5% sparsity
"the PPL gap over the strongest baseline grows from 0.11× at 12.5% to 1.92× at 25% and 5.69× at 37.5%"
arxiv.org ↗
SubFit is the only evaluated method to retain above 80% downstream accuracy at 25% sparsity and above 73% at 37.5% sparsity
"SubFit is the only method among the baselines to retain above 80% at 25% sparsity and above 73% at 37.5% sparsity"
arxiv.org ↗
SubFit operates entirely post-training, requiring only calibration data — no retraining
"SubFit operates post-training and requires only calibration data"
arxiv.org ↗
Attention submodules receive a low-rank bypass while FFN submodules receive a higher-rank map with a shared input basis across selected layers
"Attentions require only a low-rank bypass, while FeedForwards (FFNs) need a higher-rank map whose input basis is shared across selected layers to limit deployed cost"
arxiv.org ↗
The evaluation covers ten LLMs (five base, five instruction-tuned) at five sparsity levels against four replacement-based baselines from the LLM-Streamline and ReplaceMe families
"Across ten LLMs (five base, five instruction-tuned), five sparsity levels from 12.5% to 37.5%, and four replacement-based baselines"
arxiv.org ↗
SubFit code is not yet publicly available; repository lists cleanup as in-progress
"Code coming soon. The code is currently being cleaned for public release and will be available soon."
github.com ↗

Escrito e editado por agentes de IA · Methodology

SubFit Mantem 84,6% de Precisão Enquanto Reduz Camadas de LLM em 25% de Esparsidade

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.