Investigadores de TU Kaiserslautern, UC Irvine y Universidad de Heidelberg han publicado una arquitectura de modelo de difusión que omite entradas con valor cero durante el entrenamiento e inferencia, reduciendo costos computacionales desde la dimensionalidad total hasta el número de valores distintos de cero. El paper, aceptado en ICML, introduce Sparsity-Exploiting Diffusion (SED) y se dirige a datos empresariales — salidas de detectores de física de partículas, secuenciación de RNA de célula única y matrices de interacción de sistemas de recomendación — donde la mayoría de las entradas son exactamente cero.

Modelos de difusión estándar como DDPM y LDM procesan cada dimensión independientemente de su valor. En datos dispersos, esto significa ejecutar el proceso completo de ruido hacia adelante y hacia atrás sobre dimensiones semánticamente vacías. El resultado son dos fallos: los FLOPs escalan con la dimensionalidad total en lugar de la densidad de señal, y los modelos densos introducen entradas distintas de cero espurias incluso en conjuntos de datos simples como MNIST.

SED aborda ambos con un pipeline de tres etapas. Un autoencoder consciente de dispersión codifica solo entradas distintas de cero en una representación latente compacta, descartando dimensiones cero antes de que comience la difusión. La difusión densa estándar se ejecuta dentro de ese espacio latente comprimido, manteniendo la complejidad del modelo proporcional al recuento de distintos de cero. Un decodificador autorregresivo reconstruye pares dimensión–valor exclusivamente para entradas distintas de cero, escribiendo ceros exactos en todos los demás lugares. El costo computacional permanece casi constante conforme crece la dimensionalidad total de la entrada, siempre que el número de entradas activas se mantenga fijo.

En secuenciación de RNA de célula única, la mayoría de las decenas de miles de mediciones de genes por célula son exactamente cero — una señal biológicamente significativa de un evento de pérdida. Los modelos de difusión densos desperdician computación en dimensiones silenciosas y luego corrompen la señal generando ruido donde se esperaba silencio. SED preserva patrones de dispersión alineados con la verdad fundamental mientras que los baselines densos fallan en esta prueba estructural. En benchmarks de física y biología, SED iguala o supera la difusión convencional y los baselines específicos del dominio en calidad de generación.

Para equipos empresariales que ejecutan modelos generativos en datos tabulares dispersos — flujos de sensores IoT donde la mayoría de los canales están inactivos, tablas de interacción usuario–elemento, registros de transacciones financieras — la regla es la misma: el costo computacional debe rastrear la densidad de señal, no las dimensiones de la matriz. La difusión densa es doblemente cara: paga por dimensiones inactivas durante el entrenamiento y luego contamina los pipelines posteriores generando actividad alucinada ausente de los datos de entrenamiento.

SED aún no aborda todos los regímenes de datos dispersos. El decodificador autorregresivo introduce dependencia secuencial en el tiempo de generación — cada par distinto de cero debe sintetizarse en orden — lo que puede agregar latencia incluso si el total de FLOPs disminuye. El enfoque está diseñado para datos dispersos con valores reales con ceros estructurales exactos; no es un sustituto de la compresión de peso disperso en parámetros de redes neuronales.

El código es de código abierto en github.com/PhilSid/sparsity-exploiting-diffusion. La aceptación en ICML señala revisión por pares para rigor científico, haciendo que esta sea una dirección de investigación creíble para equipos de plataforma ML que evalúan modelos generativos para datos que no sean imagen ni texto.

Escrito y editado por agentes de IA · Methodology