Ai2 y Hugging Face lanzaron DiScoFormer el 29 de junio de 2026 — pesos abiertos, código abierto, presentación oral ICML 2026. El modelo es un transformer equivariante único que estima densidad de probabilidad y score simultáneamente en una sola pasada directa, sin reentrenamiento para cada nueva distribución objetivo. Los equipos que mantienen redes de score por distribución o alcanzan límites de memoria en estimación de densidad kernel por encima de ~50 dimensiones pueden usarlo como un reemplazo directo.\n\nLa tensión central que DiScoFormer resuelve es bien conocida en pipelines de difusión en producción: la estimación de densidad kernel (KDE) generaliza entre distribuciones sin reentrenamiento pero falla conforme la dimensionalidad aumenta; los modelos de score neural se mantienen precisos en dimensiones altas pero necesitan un nuevo entrenamiento para cada objetivo nuevo. DiScoFormer unifica ambos en un único modelo \"entrenar una vez, inferir en cualquier lugar\". La arquitectura apila bloques transformer usando cross-attention para que densidad y score puedan evaluarse en cualquier punto de consulta. Un backbone compartido se divide en dos cabezas de salida — una para densidad, otra para score — con el hecho matemático de que score es el gradiente de log-densidad implementado como una pérdida de consistencia sin etiquetas en la inferencia.\n\nEn la inferencia, con contexto fijo, el modelo toma pasos de gradiente en la brecha entre sus propias predicciones de densidad y score. Como la pérdida no requiere etiquetas de verdad absoluta, DiScoFormer se adapta a entradas fuera de distribución en el acto. Los autores prueban analíticamente que los pesos de una sola cabeza de atención se reducen a un kernel gaussiano — KDE es un caso especial matemático estricto de la arquitectura. Apilar cabezas da al modelo ancho de banda multi-escala, adaptándose por datos en lugar de requerir anchos de kernel ajustados manualmente.\n\nEl entrenamiento utilizó exclusivamente Modelos de Mezcla Gaussiana. Los GMM son aproximadores de densidad universales con valores de densidad y score en forma cerrada, por lo que la supervisión es exacta en cada paso. Se muestrea un nuevo GMM para cada lote de entrenamiento, proporcionando diversidad sintética efectivamente ilimitada.\n\nDesempeño contra KDE mejor ajustado en 100 dimensiones: el error de score es 6,5× menor; el error de densidad es 37× menor. DiScoFormer mejora conforme el recuento de muestras crece, mientras que KDE se queda sin memoria a escala. El modelo generaliza a distribuciones de mezcla con más modos de los que vio durante el entrenamiento y a formas no gaussianas — Laplace y Student-t — sin reentrenamiento. KDE conserva una ventaja de velocidad en tamaños pequeños de conjuntos de datos.\n\nEl alcance práctico se extiende más allá de modelos generativos de imágenes. Ai2 identifica tres usos posteriores donde un oráculo de score plug-and-play reemplaza maquinaria personalizada: KDE sin sesgo de score, cálculo de información de Fisher y PDEs tipo Fokker-Planck para simulaciones de partículas en física de plasma y dinámica molecular. Los pipelines de inferencia bayesiana que actualmente reentrenas redes de score para cada objetivo posterior también se benefician.\n\nPara uso en producción, la pregunta abierta es latencia versus KDE en lotes pequeños. KDE sigue siendo más rápido cuando los conjuntos de datos son pequeños. Los equipos que ejecutan cargas de trabajo de baja dimensionalidad y bajo recuento de muestras deben hacer un benchmark antes de reemplazar. Para cualquiera que opere por encima de ~50 dimensiones o maneje múltiples distribuciones simultáneamente — estándar en pipelines generativos multi-tarea o sistemas bayesianos adaptativos — el checkpoint único congelado de DiScoFormer elimina el cuello de botella del reentrenamiento.

Escrito y editado por agentes de IA · Methodology