Modelos de Difusão Reduzem Computação em Dados Esparsos com Processamento Seletivo

Pesquisadores da TU Kaiserslautern, UC Irvine e Universidade de Heidelberg publicaram uma arquitetura de modelo de difusão que ignora entradas com valor zero durante treinamento e inferência, reduzindo custos computacionais da dimensionalidade total até o número de valores não-zero. O paper, aceito no ICML, introduz Sparsity-Exploiting Diffusion (SED) e tem como alvo dados empresariais — saídas de detectores de física de partículas, sequenciamento de RNA de célula única e matrizes de interação de sistemas de recomendação — onde a maioria das entradas é exatamente zero.

Modelos de difusão padrão como DDPM e LDM processam cada dimensão independentemente do valor. Em dados esparsos isso significa executar o processo completo de ruído para frente e para trás sobre dimensões semanticamente vazias. O resultado são duas falhas: FLOPs escalam com a dimensionalidade total em vez da densidade do sinal, e modelos densos introduzem entradas não-zero espúrias mesmo em datasets simples como MNIST.

SED aborda ambas com um pipeline de três estágios. Um autoencoder ciente de esparsidade codifica apenas entradas não-zero em uma representação latente compacta, descartando dimensões zero antes da difusão começar. A difusão densa padrão executa dentro daquele espaço latente comprimido, mantendo a complexidade do modelo proporcional à contagem de não-zero. Um decodificador autorregressivo reconstrói pares dimensão–valor exclusivamente para entradas não-zero, escrevendo zeros exatos em todos os outros lugares. O custo computacional permanece quase constante conforme a dimensionalidade total da entrada cresce, desde que o número de entradas ativas permaneça fixo.

No sequenciamento de RNA de célula única, a maioria das dezenas de milhares de medições de genes por célula são exatamente zero — um sinal biologicamente significativo de um evento de dropout. Modelos de difusão densos desperdiçam computação em dimensões silenciosas e então corrompem o sinal gerando ruído onde silêncio era esperado. SED preserva padrões de esparsidade alinhados com a verdade fundamental enquanto baselines densos falham neste teste estrutural. Em benchmarks de física e biologia SED corresponde ou supera difusão convencional e baselines específicos de domínio em qualidade de geração.

Para equipes empresariais executando modelos generativos em dados tabulares esparsos — feeds de sensores IoT onde a maioria dos canais estão inativos, tabelas de interação usuário–item, logs de transações financeiras — a regra é a mesma: custo computacional deve rastrear densidade de sinal, não dimensões de matriz. Difusão densa é duplamente cara: ela paga por dimensões inativas durante treinamento e então contamina pipelines posteriores gerando atividade alucinada ausente dos dados de treinamento.

SED ainda não aborda todos os regimes de dados esparsos. O decodificador autorregressivo introduz dependência sequencial no tempo de geração — cada par não-zero deve ser sintetizado em ordem — que pode adicionar latência mesmo que FLOPs total caiam. A abordagem é projetada para dados esparsos com valor real com zeros estruturais exatos; não é um substituto para compressão de peso esparso em parâmetros de rede neural.

Código é open-sourced em github.com/PhilSid/sparsity-exploiting-diffusion. Aceição no ICML sinaliza revisão por pares para rigor científico, tornando esta uma direção de pesquisa credível para equipes de plataforma ML avaliando modelos generativos para dados não-imagem, não-texto.

Sources

SED achieves efficiency that scales with the number of non-zeros, in contrast to dense models that scale with dimensionality
"SED achieves efficiency that scales with the number of non-zeros, in contrast to dense models that scale with the dimensionality"
arxiv.org ↗
SED keeps computational cost nearly constant for high-dimensional sparse scRNA data with a fixed number of active genes
"SED keeps computational cost nearly constant for generative modeling on high-dimensional sparse scRNA data with a fixed number of active genes. Unlike DDPM and LDM, whose costs grow with total dimensionality, SED processes only non-zero dimensions, maintaining efficiency regardless of input size."
arxiv.org ↗
Dense models (DDPM, LDM) fail to preserve exact zeros and introduce spurious non-zero entries even on MNIST
"While dense models (DDPM, LDM) fail to preserve exact zeros and introduce spurious non-zero entries, the proposed Sparsity-Exploiting Diffusion (SED) model preserves sparsity patterns closely aligned with the ground truth."
arxiv.org ↗
SED uses a sparse-to-dense latent encoding, dense diffusion in a compact latent space, and an autoregressive sparse decoder
"SED exploits sparsity by encoding only non-zero values into a compact latent representation, performing dense diffusion in this space, and then autoregressively reconstructing the non-zero values."
arxiv.org ↗
SED matches or surpasses conventional DMs and domain-specific baselines across physics and biology benchmarks
"Across physics and biology benchmarks, SED matches or surpasses conventional DMs and domain-specific baselines, while vision experiments provide intuitive insights into the limitations of dense DMs and the benefits of SED."
arxiv.org ↗
In scRNA sequencing, most measurements are exactly zero and only a limited subset carries signal
"in single-cell RNA (scRNA) sequencing, most measurements are exactly zero and only a limited subset carries signal"
arxiv.org ↗
Exact zeros are semantically meaningful absences of signal; failing to preserve them undermines interpretability and downstream utility
"Zeros are semantically meaningful absences of signal (e.g., scRNA dropout events, no energy deposits in particle physics experiments). Failing to preserve them undermines interpretability, trust, and downstream utility."
arxiv.org ↗
Code is open-sourced at github.com/PhilSid/sparsity-exploiting-diffusion
"Code is available at https://github.com/PhilSid/sparsity-exploiting-diffusion."
arxiv.org ↗
The paper is accepted to ICML
"Machine Learning, ICML"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Modelos de Difusão Reduzem Computação em Dados Esparsos com Processamento Seletivo

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.