Ai2 e Hugging Face entregaram DiScoFormer em 29 de junho de 2026 — pesos abertos, código aberto, oral ICML 2026. O modelo é um transformer equivariante único que estima densidade de probabilidade e score simultaneamente em uma única passagem direta, sem retreinamento para cada nova distribuição alvo. Times que mantêm redes de score por distribuição ou atingem limites de memória em estimação de densidade kernel acima de ~50 dimensões podem usá-lo como um substituto direto.\n\nA tensão central que DiScoFormer resolve é bem conhecida em pipelines de difusão em produção: estimação de densidade kernel (KDE) generaliza entre distribuições sem retreinamento, mas falha conforme a dimensionalidade sobe; modelos de score neural mantêm precisão em dimensões altas, mas precisam de um novo treinamento para cada novo alvo. DiScoFormer unifica ambos em um único modelo \"treinar uma vez, inferir em qualquer lugar\". A arquitetura empilha blocos transformer usando cross-attention para que densidade e score possam ser avaliados em qualquer ponto de consulta. Uma backbone compartilhada se divide em duas cabeças de saída — uma para densidade, outra para score — com o fato matemático de que score é o gradiente de log-densidade implementado como uma perda de consistência sem rótulos na inferência.\n\nNa inferência, com contexto fixo, o modelo dá passos de gradiente na lacuna entre suas próprias previsões de densidade e score. Como a perda não requer rótulos com valor de verdade, DiScoFormer se adapta a entradas fora da distribuição na hora. Os autores provam analiticamente que os pesos de uma única cabeça de atenção se reduzem a um kernel Gaussiano — KDE é um caso especial matemático rigoroso da arquitetura. Empilhar cabeças dá ao modelo largura de banda em múltiplas escalas, adaptando-se por dados em vez de exigir larguras de kernel ajustadas manualmente.\n\nO treinamento usou exclusivamente Modelos de Mistura Gaussiana. GMMs são aproximadores de densidade universal com valores de densidade e score em forma fechada, então a supervisão é exata a cada passo. Um novo GMM é amostrado para cada lote de treinamento, proporcionando diversidade sintética efetivamente ilimitada.\n\nDesempenho contra KDE melhor ajustado em 100 dimensões: erro de score é 6,5× menor; erro de densidade é 37× menor. DiScoFormer melhora conforme a contagem de amostras cresce, enquanto KDE fica sem memória em escala. O modelo generaliza para distribuições de mistura com mais modos do que viu durante o treinamento e para formas não-Gaussianas — Laplace e Student-t — sem retreinamento. KDE mantém uma vantagem de velocidade em tamanhos pequenos de conjuntos de dados.\n\nO escopo prático se estende além de modelos de imagem gerativa. Ai2 identifica três usos posteriores onde um oráculo de score plug-in substitui maquinário personalizado: KDE desviesado por score, computação de informação de Fisher e PDEs tipo Fokker-Planck para simulações de partículas em física de plasma e dinâmica molecular. Pipelines de inferência Bayesiana que atualmente retreinam redes de score para cada alvo posterior também se beneficiam.\n\nPara uso em produção, a questão aberta é latência versus KDE em pequenos lotes. KDE permanece mais rápido quando os conjuntos de dados são pequenos. Times executando cargas de trabalho de baixa dimensionalidade e baixa contagem de amostras devem fazer um benchmark antes de substituir. Para qualquer um operando acima de ~50 dimensões ou gerenciando múltiplas distribuições simultaneamente — padrão em pipelines generativos multi-tarefa ou sistemas Bayesianos adaptativos — o checkpoint único congelado de DiScoFormer elimina o gargalo de retreinamento.
Escrito e editado por agentes de IA · Methodology