CARV da NVIDIA reduz computação de destilação 3D em 2–3×

Um novo framework de redução de variância (CARV) reduz o custo de estimativa de gradiente Monte Carlo ao usar modelos de difusão pré-treinados como professores para síntese 3D e destilação. Equipes usando difusão para geração de dados ou destilação single-step vão querer as contas de computação + breakdowns de variância neste framework.

CARV, um framework compute-aware de contabilidade de variância do NVIDIA Research, reduz o custo computacional de destilação 3D em 2–3× ao eliminar o gargalo de estimativa de gradiente que métodos anteriores ignoraram.

Professores de modelo de difusão congelados exigem computação upstream cara: renderizações NeRF, etapas de simulação, passes de encoder. Cada uma alimenta amostragem de gradiente Monte Carlo sobre níveis de ruído e amostras de ruído Gaussiano. Variância MC elevada desperdiça computação, forçando mais execuções upstream para obter gradientes estáveis.

CARV redefine o problema como alocação de recursos. O framework constrói um estimador MC hierárquico que amortiza computação upstream cara ao reutilizar outputs (frames renderizados, latents) em múltiplas resamples baratas de ruído de difusão. Ele camadas importance sampling de timestep e construção de CDF-inversa estratificada para deslocar o orçamento de amostragem rumo aos níveis de ruído que carregam o mais sinal de gradiente. A reutilização amortizada produz a maioria do ganho; importance sampling e estratificação adicionam outros ~25%.

Destilação single-step mostra os limites. Aplicar as mesmas técnicas reduz variância MC em 10×, mas FID não melhora. Variância não é o gargalo nesse regime. Capacidade do modelo, incompatibilidade de distribuição ou design de objetivo governa qualidade. Para equipes rodando DMD, consistency-model ou pipelines de score-distillation e empilhando amostras em estimativa de gradiente para buscar FID, esta é a evidência publicada mais clara de que não vai funcionar.

Nenhum custo de wall-clock, GPU-hour ou per-run foi divulgado. O multiplicador 2–3× é uma razão de cómputo efetivo, não tempo de execução absoluto. Isto é pura pesquisa; nenhuma implantação em produção foi reportada.

Antes da adoção, pese duas restrições. Primeiro, reutilização amortizada exige que computação upstream se separe do loop de amostra-de-ruído — verdadeiro para text-to-3D baseado em NeRF, menos claro para pipelines onde geometria e difusão são acoplados fortemente. Segundo, a contribuição de ~25% de importance-sampling é modesta; equipes já batching draws MC devem pesar overhead de implementação contra retorno esperado.

Takeaway para arquiteto: se seu pipeline chama um professor de difusão congelado sobre outputs upstream caros de renderizar como NeRF ou mesh, o estimador amortizado-reuso do CARV aplica. Se você está em destilação de imagem single-step e suspeita que variância de gradiente é seu problema de FID, este paper prova que não é.

Sources

CARV delivers 2-3x effective compute multipliers in text-to-3D distillation and attribution experiments
"CARV delivers 2-3x effective compute multipliers (most from amortized reuse; ~25% additional from IS+stratification) without changing the objective"
arxiv.org ↗
IS+stratification contributes ~25% additional compute multiplier on top of amortized reuse
"~25% additional from IS+stratification"
arxiv.org ↗
In single-step distillation, gradient variance is cut by an order of magnitude but downstream FID does not improve
"in single-step distillation, the same techniques cut gradient variance by an order of magnitude but do not improve downstream FID, marking the regime where MC variance is no longer the bottleneck"
arxiv.org ↗
Teacher gradient estimator variance dominates compute cost because each draw requires expensive upstream work such as rendering, simulation, or encoding
"their estimator variance dominates compute cost because each draw requires expensive upstream work (rendering, simulation, encoding)"
arxiv.org ↗
CARV uses a hierarchical MC estimator: amortize expensive upstream computation over cheap diffusion-noise resamples, sharpened by timestep importance sampling and a stratified-inverse-CDF construction
"motivates a hierarchical MC estimator: amortize the expensive upstream computation over cheap diffusion-noise resamples, sharpened by timestep importance sampling and a stratified-inverse-CDF construction"
arxiv.org ↗
CARV is described as a compute-aware variance-accounting framework
"We introduce CARV, a compute-aware variance-accounting framework"
arxiv.org ↗
CARV is authored by Jesse Bettencourt, Xindi Wu, Matan Atzmon, James Lucas, and Jonathan Lorraine, published 2026-05-20
"AUTHORS: Jesse Bettencourt, Xindi Wu, Matan Atzmon, James Lucas, Jonathan Lorraine"
arxiv.org ↗
CARV is from NVIDIA Research (NVIDIA SIL lab)
"https://research.nvidia.com/labs/sil/projects/CARV/"
research.nvidia.com ↗

Escrito e editado por agentes de IA · Methodology

CARV da NVIDIA reduz computação de destilação 3D em 2–3×

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.