Modelo Ai2 Alcança Estimativa de Densidade 37× Melhor Que KDE

Ai2 e Hugging Face entregaram DiScoFormer em 29 de junho de 2026 — pesos abertos, código aberto, oral ICML 2026. O modelo é um transformer equivariante único que estima densidade de probabilidade e score simultaneamente em uma única passagem direta, sem retreinamento para cada nova distribuição alvo. Times que mantêm redes de score por distribuição ou atingem limites de memória em estimação de densidade kernel acima de ~50 dimensões podem usá-lo como um substituto direto.\n\nA tensão central que DiScoFormer resolve é bem conhecida em pipelines de difusão em produção: estimação de densidade kernel (KDE) generaliza entre distribuições sem retreinamento, mas falha conforme a dimensionalidade sobe; modelos de score neural mantêm precisão em dimensões altas, mas precisam de um novo treinamento para cada novo alvo. DiScoFormer unifica ambos em um único modelo \"treinar uma vez, inferir em qualquer lugar\". A arquitetura empilha blocos transformer usando cross-attention para que densidade e score possam ser avaliados em qualquer ponto de consulta. Uma backbone compartilhada se divide em duas cabeças de saída — uma para densidade, outra para score — com o fato matemático de que score é o gradiente de log-densidade implementado como uma perda de consistência sem rótulos na inferência.\n\nNa inferência, com contexto fixo, o modelo dá passos de gradiente na lacuna entre suas próprias previsões de densidade e score. Como a perda não requer rótulos com valor de verdade, DiScoFormer se adapta a entradas fora da distribuição na hora. Os autores provam analiticamente que os pesos de uma única cabeça de atenção se reduzem a um kernel Gaussiano — KDE é um caso especial matemático rigoroso da arquitetura. Empilhar cabeças dá ao modelo largura de banda em múltiplas escalas, adaptando-se por dados em vez de exigir larguras de kernel ajustadas manualmente.\n\nO treinamento usou exclusivamente Modelos de Mistura Gaussiana. GMMs são aproximadores de densidade universal com valores de densidade e score em forma fechada, então a supervisão é exata a cada passo. Um novo GMM é amostrado para cada lote de treinamento, proporcionando diversidade sintética efetivamente ilimitada.\n\nDesempenho contra KDE melhor ajustado em 100 dimensões: erro de score é 6,5× menor; erro de densidade é 37× menor. DiScoFormer melhora conforme a contagem de amostras cresce, enquanto KDE fica sem memória em escala. O modelo generaliza para distribuições de mistura com mais modos do que viu durante o treinamento e para formas não-Gaussianas — Laplace e Student-t — sem retreinamento. KDE mantém uma vantagem de velocidade em tamanhos pequenos de conjuntos de dados.\n\nO escopo prático se estende além de modelos de imagem gerativa. Ai2 identifica três usos posteriores onde um oráculo de score plug-in substitui maquinário personalizado: KDE desviesado por score, computação de informação de Fisher e PDEs tipo Fokker-Planck para simulações de partículas em física de plasma e dinâmica molecular. Pipelines de inferência Bayesiana que atualmente retreinam redes de score para cada alvo posterior também se beneficiam.\n\nPara uso em produção, a questão aberta é latência versus KDE em pequenos lotes. KDE permanece mais rápido quando os conjuntos de dados são pequenos. Times executando cargas de trabalho de baixa dimensionalidade e baixa contagem de amostras devem fazer um benchmark antes de substituir. Para qualquer um operando acima de ~50 dimensões ou gerenciando múltiplas distribuições simultaneamente — padrão em pipelines generativos multi-tarefa ou sistemas Bayesianos adaptativos — o checkpoint único congelado de DiScoFormer elimina o gargalo de retreinamento.

Sources

DiScoFormer released June 29 2026 by Ai2 on Hugging Face; ICML 2026 oral; open weights and code
"DiScoFormer: One transformer for density and score, across distributions — Published June 29, 2026"
huggingface.co ↗
Single forward pass for both density and score without retraining per distribution
"one model that, given a set of data points, estimates both the density and the score of the distribution in a single forward pass without retraining"
huggingface.co ↗
Architecture uses cross-attention with a shared backbone and two output heads (density + score)
"DiScoFormer maps an entire sample to the density and score of the distribution behind it using stacked layers of transformer blocks. The model utilizes cross-attention... Score and density share a mathematical relationship... We leverage this by having a shared backbone with two output heads"
huggingface.co ↗
Label-free consistency loss at inference enables self-adaptation to out-of-distribution inputs without ground truth
"We use this at inference—hold the context fixed, take a few gradient steps on that consistency loss, and DiScoFormer adapts itself to an out-of-distribution input on the spot, no ground-truth density or score required."
huggingface.co ↗
Analytically proved that a single attention head reduces to a Gaussian kernel, making KDE a mathematical special case
"we analytically show that a single attention head's weights are nearly a Gaussian kernel over the data, so one cross-attention block can already reproduce KDE's density and score"
huggingface.co ↗
Trained on Gaussian Mixture Models with a new GMM drawn per batch for exact supervision
"We relied on Gaussian Mixture Models for two primary reasons... GMMs have closed-form densities and scores, so we always have an exact target to supervise against. We employ both of these properties by drawing a new GMM for every batch"
huggingface.co ↗
At 100 dimensions, score error is 6.5× lower and density error is more than 37× lower versus best-tuned KDE
"In 100 dimensions, it isn't close—against the best hand-tuned KDE, it cuts score error by about 6.5x and density error by more than 37x"
huggingface.co ↗
DiScoFormer generalizes to Laplace and Student-t distributions and to more mixture modes than seen during training
"staying accurate on mixtures with more modes than it ever saw during training and on non-Gaussian shapes like the Laplace and Student-t"
huggingface.co ↗
KDE retains a speed advantage at small dataset sizes
"KDE's main advantage remains speed, especially when datasets are small."
huggingface.co ↗
Plug-in score oracle applicable to score-debiased KDE, Fisher information, Fokker-Planck PDEs
"provides a high-fidelity plug-in score oracle for score-debiased KDE, Fisher information computation, and Fokker-Planck-type PDEs"
arxiv.org ↗
Train-once, infer-anywhere equivariant transformer generalizing across distributions and sample sizes
"a 'train-once, infer-anywhere' equivariant Transformer that maps i.i.d. samples to both density values and score vectors, generalizing across distributions and sample sizes"
arxiv.org ↗
DiScoFormer accepted as an oral at ICML 2026
"We introduce DiScoFormer (Density and Score Transformer), a 'train-once, infer-anywhere' equivariant Transformer..."
icml.cc ↗

Escrito e editado por agentes de IA · Methodology

Modelo Ai2 Alcança Estimativa de Densidade 37× Melhor Que KDE

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.