Pesquisadores da TU Kaiserslautern, UC Irvine e Universidade de Heidelberg publicaram uma arquitetura de modelo de difusão que ignora entradas com valor zero durante treinamento e inferência, reduzindo custos computacionais da dimensionalidade total até o número de valores não-zero. O paper, aceito no ICML, introduz Sparsity-Exploiting Diffusion (SED) e tem como alvo dados empresariais — saídas de detectores de física de partículas, sequenciamento de RNA de célula única e matrizes de interação de sistemas de recomendação — onde a maioria das entradas é exatamente zero.
Modelos de difusão padrão como DDPM e LDM processam cada dimensão independentemente do valor. Em dados esparsos isso significa executar o processo completo de ruído para frente e para trás sobre dimensões semanticamente vazias. O resultado são duas falhas: FLOPs escalam com a dimensionalidade total em vez da densidade do sinal, e modelos densos introduzem entradas não-zero espúrias mesmo em datasets simples como MNIST.
SED aborda ambas com um pipeline de três estágios. Um autoencoder ciente de esparsidade codifica apenas entradas não-zero em uma representação latente compacta, descartando dimensões zero antes da difusão começar. A difusão densa padrão executa dentro daquele espaço latente comprimido, mantendo a complexidade do modelo proporcional à contagem de não-zero. Um decodificador autorregressivo reconstrói pares dimensão–valor exclusivamente para entradas não-zero, escrevendo zeros exatos em todos os outros lugares. O custo computacional permanece quase constante conforme a dimensionalidade total da entrada cresce, desde que o número de entradas ativas permaneça fixo.
No sequenciamento de RNA de célula única, a maioria das dezenas de milhares de medições de genes por célula são exatamente zero — um sinal biologicamente significativo de um evento de dropout. Modelos de difusão densos desperdiçam computação em dimensões silenciosas e então corrompem o sinal gerando ruído onde silêncio era esperado. SED preserva padrões de esparsidade alinhados com a verdade fundamental enquanto baselines densos falham neste teste estrutural. Em benchmarks de física e biologia SED corresponde ou supera difusão convencional e baselines específicos de domínio em qualidade de geração.
Para equipes empresariais executando modelos generativos em dados tabulares esparsos — feeds de sensores IoT onde a maioria dos canais estão inativos, tabelas de interação usuário–item, logs de transações financeiras — a regra é a mesma: custo computacional deve rastrear densidade de sinal, não dimensões de matriz. Difusão densa é duplamente cara: ela paga por dimensões inativas durante treinamento e então contamina pipelines posteriores gerando atividade alucinada ausente dos dados de treinamento.
SED ainda não aborda todos os regimes de dados esparsos. O decodificador autorregressivo introduz dependência sequencial no tempo de geração — cada par não-zero deve ser sintetizado em ordem — que pode adicionar latência mesmo que FLOPs total caiam. A abordagem é projetada para dados esparsos com valor real com zeros estruturais exatos; não é um substituto para compressão de peso esparso em parâmetros de rede neural.
Código é open-sourced em github.com/PhilSid/sparsity-exploiting-diffusion. Aceição no ICML sinaliza revisão por pares para rigor científico, tornando esta uma direção de pesquisa credível para equipes de plataforma ML avaliando modelos generativos para dados não-imagem, não-texto.
Escrito e editado por agentes de IA · Methodology