Modelos de Difusión Reducen Computación en Datos Dispersos con Procesamiento Selectivo

Investigadores de TU Kaiserslautern, UC Irvine y Universidad de Heidelberg han publicado una arquitectura de modelo de difusión que omite entradas con valor cero durante el entrenamiento e inferencia, reduciendo costos computacionales desde la dimensionalidad total hasta el número de valores distintos de cero. El paper, aceptado en ICML, introduce Sparsity-Exploiting Diffusion (SED) y se dirige a datos empresariales — salidas de detectores de física de partículas, secuenciación de RNA de célula única y matrices de interacción de sistemas de recomendación — donde la mayoría de las entradas son exactamente cero.

Modelos de difusión estándar como DDPM y LDM procesan cada dimensión independientemente de su valor. En datos dispersos, esto significa ejecutar el proceso completo de ruido hacia adelante y hacia atrás sobre dimensiones semánticamente vacías. El resultado son dos fallos: los FLOPs escalan con la dimensionalidad total en lugar de la densidad de señal, y los modelos densos introducen entradas distintas de cero espurias incluso en conjuntos de datos simples como MNIST.

SED aborda ambos con un pipeline de tres etapas. Un autoencoder consciente de dispersión codifica solo entradas distintas de cero en una representación latente compacta, descartando dimensiones cero antes de que comience la difusión. La difusión densa estándar se ejecuta dentro de ese espacio latente comprimido, manteniendo la complejidad del modelo proporcional al recuento de distintos de cero. Un decodificador autorregresivo reconstruye pares dimensión–valor exclusivamente para entradas distintas de cero, escribiendo ceros exactos en todos los demás lugares. El costo computacional permanece casi constante conforme crece la dimensionalidad total de la entrada, siempre que el número de entradas activas se mantenga fijo.

En secuenciación de RNA de célula única, la mayoría de las decenas de miles de mediciones de genes por célula son exactamente cero — una señal biológicamente significativa de un evento de pérdida. Los modelos de difusión densos desperdician computación en dimensiones silenciosas y luego corrompen la señal generando ruido donde se esperaba silencio. SED preserva patrones de dispersión alineados con la verdad fundamental mientras que los baselines densos fallan en esta prueba estructural. En benchmarks de física y biología, SED iguala o supera la difusión convencional y los baselines específicos del dominio en calidad de generación.

Para equipos empresariales que ejecutan modelos generativos en datos tabulares dispersos — flujos de sensores IoT donde la mayoría de los canales están inactivos, tablas de interacción usuario–elemento, registros de transacciones financieras — la regla es la misma: el costo computacional debe rastrear la densidad de señal, no las dimensiones de la matriz. La difusión densa es doblemente cara: paga por dimensiones inactivas durante el entrenamiento y luego contamina los pipelines posteriores generando actividad alucinada ausente de los datos de entrenamiento.

SED aún no aborda todos los regímenes de datos dispersos. El decodificador autorregresivo introduce dependencia secuencial en el tiempo de generación — cada par distinto de cero debe sintetizarse en orden — lo que puede agregar latencia incluso si el total de FLOPs disminuye. El enfoque está diseñado para datos dispersos con valores reales con ceros estructurales exactos; no es un sustituto de la compresión de peso disperso en parámetros de redes neuronales.

El código es de código abierto en github.com/PhilSid/sparsity-exploiting-diffusion. La aceptación en ICML señala revisión por pares para rigor científico, haciendo que esta sea una dirección de investigación creíble para equipos de plataforma ML que evalúan modelos generativos para datos que no sean imagen ni texto.

Sources

SED achieves efficiency that scales with the number of non-zeros, in contrast to dense models that scale with dimensionality
"SED achieves efficiency that scales with the number of non-zeros, in contrast to dense models that scale with the dimensionality"
arxiv.org ↗
SED keeps computational cost nearly constant for high-dimensional sparse scRNA data with a fixed number of active genes
"SED keeps computational cost nearly constant for generative modeling on high-dimensional sparse scRNA data with a fixed number of active genes. Unlike DDPM and LDM, whose costs grow with total dimensionality, SED processes only non-zero dimensions, maintaining efficiency regardless of input size."
arxiv.org ↗
Dense models (DDPM, LDM) fail to preserve exact zeros and introduce spurious non-zero entries even on MNIST
"While dense models (DDPM, LDM) fail to preserve exact zeros and introduce spurious non-zero entries, the proposed Sparsity-Exploiting Diffusion (SED) model preserves sparsity patterns closely aligned with the ground truth."
arxiv.org ↗
SED uses a sparse-to-dense latent encoding, dense diffusion in a compact latent space, and an autoregressive sparse decoder
"SED exploits sparsity by encoding only non-zero values into a compact latent representation, performing dense diffusion in this space, and then autoregressively reconstructing the non-zero values."
arxiv.org ↗
SED matches or surpasses conventional DMs and domain-specific baselines across physics and biology benchmarks
"Across physics and biology benchmarks, SED matches or surpasses conventional DMs and domain-specific baselines, while vision experiments provide intuitive insights into the limitations of dense DMs and the benefits of SED."
arxiv.org ↗
In scRNA sequencing, most measurements are exactly zero and only a limited subset carries signal
"in single-cell RNA (scRNA) sequencing, most measurements are exactly zero and only a limited subset carries signal"
arxiv.org ↗
Exact zeros are semantically meaningful absences of signal; failing to preserve them undermines interpretability and downstream utility
"Zeros are semantically meaningful absences of signal (e.g., scRNA dropout events, no energy deposits in particle physics experiments). Failing to preserve them undermines interpretability, trust, and downstream utility."
arxiv.org ↗
Code is open-sourced at github.com/PhilSid/sparsity-exploiting-diffusion
"Code is available at https://github.com/PhilSid/sparsity-exploiting-diffusion."
arxiv.org ↗
The paper is accepted to ICML
"Machine Learning, ICML"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Modelos de Difusión Reducen Computación en Datos Dispersos con Procesamiento Selectivo

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.