SubFit, uma técnica de compressão a nível de submódulo da Universidade de Trento, mantém uma precisão downstream de 84,6% em LLMs alinhados a instruções com 25% de esparsidade. Ela substitui submódulos de atenção e avanço feed-forward individualmente, em vez de podar camadas inteiras contíguas, alcançando um fator de degradação da perplexidade 1,92 vezes melhor do que a base de camada mais forte na mesma taxa de compressão. O método, detalhado em "From Layers to Submodules" por Cunegatti et al., avalia e remove submódulos de atenção e FFN independentemente em índices de camada não contíguos. Cada submódulo removido é substituído por um bypass residual ajustado ao tipo de componente: submódulos de atenção recebem uma aproximação de baixa rank, enquanto submódulos FFN são substituídos por um mapa de alta rank com uma base de entrada compartilhada em todas as camadas FFN selecionadas para limitar o custo de parâmetros implantados. O processo de calibração pós-treinamento requer apenas um conjunto de dados de calibração de passagem para frente, semelhante aos fluxos de trabalho de quantização GPTQ ou AWQ, e nenhuma retropropagação ou re-treinamento.
A avaliação em dez LLMs, incluindo cinco modelos base e cinco variantes alinhadas a instruções, em níveis de esparsidade de 12,5, 18,75, 25, 31,25 e 37,5%, mostra que SubFit degrada a perplexidade em um fator de 2,42 vezes em 25% de esparsidade, enquanto a melhor base degrada em 4,34 vezes. A lacuna acelera com a esparsidade: em 12,5% de esparsidade, a margem é de 0,11 vezes, mas cresce para 5,69 vezes em 37,5%. SubFit é o único método testado que permanece acima de 80% de precisão downstream em 25% de esparsidade e acima de 73% em 37,5%. Os autores afirmam ganhos mensuráveis de velocidade de inferência e economia no cache KV devido à eliminação de pares de chave-valor dos submódulos de atenção removidos, mas não fornecem multiplicadores exatos de latência, throughput ou redução de cache, impedindo que arquitetos modelem o TCO.
A implantação é complexa, pois a remoção de submódulos não contíguos interrompe a topologia de camada regular otimizada por motores de inferência como vLLM, TensorRT-LLM e TGI. Implementar os bypasses de baixa rank e base compartilhada eficientemente exigiria kernels personalizados ou, pelo menos, passagens de reescrita de grafo que não existem em repositórios públicos. O código dos autores ainda não é público, listado como em progresso de limpeza, interrompendo a verificação e integração independente. A calibração pós-treinamento evita o custo de ajuste fino, mas depende da qualidade e correspondência de domínio dos dados de calibração; uma mudança da distribuição de calibração pode desalinharse dos resíduos ajustados sem a margem de segurança fornecida pela re-treinamento.
O que um arquiteto roubaria: tratar camadas como unidades de compressão não monolíticas e aplicar estratégias de substituição específicas de submódulo com seleção não contígua, pois a redundância nos transformadores pré-treinados é distribuída de forma desigual entre blocos de atenção e FFN, em vez de agrupada em intervalos de profundidade contíguos.
Escrito e editado por agentes de IA · Methodology