CARV, um framework compute-aware de contabilidade de variância do NVIDIA Research, reduz o custo computacional de destilação 3D em 2–3× ao eliminar o gargalo de estimativa de gradiente que métodos anteriores ignoraram.

Professores de modelo de difusão congelados exigem computação upstream cara: renderizações NeRF, etapas de simulação, passes de encoder. Cada uma alimenta amostragem de gradiente Monte Carlo sobre níveis de ruído e amostras de ruído Gaussiano. Variância MC elevada desperdiça computação, forçando mais execuções upstream para obter gradientes estáveis.

CARV redefine o problema como alocação de recursos. O framework constrói um estimador MC hierárquico que amortiza computação upstream cara ao reutilizar outputs (frames renderizados, latents) em múltiplas resamples baratas de ruído de difusão. Ele camadas importance sampling de timestep e construção de CDF-inversa estratificada para deslocar o orçamento de amostragem rumo aos níveis de ruído que carregam o mais sinal de gradiente. A reutilização amortizada produz a maioria do ganho; importance sampling e estratificação adicionam outros ~25%.

Destilação single-step mostra os limites. Aplicar as mesmas técnicas reduz variância MC em 10×, mas FID não melhora. Variância não é o gargalo nesse regime. Capacidade do modelo, incompatibilidade de distribuição ou design de objetivo governa qualidade. Para equipes rodando DMD, consistency-model ou pipelines de score-distillation e empilhando amostras em estimativa de gradiente para buscar FID, esta é a evidência publicada mais clara de que não vai funcionar.

Nenhum custo de wall-clock, GPU-hour ou per-run foi divulgado. O multiplicador 2–3× é uma razão de cómputo efetivo, não tempo de execução absoluto. Isto é pura pesquisa; nenhuma implantação em produção foi reportada.

Antes da adoção, pese duas restrições. Primeiro, reutilização amortizada exige que computação upstream se separe do loop de amostra-de-ruído — verdadeiro para text-to-3D baseado em NeRF, menos claro para pipelines onde geometria e difusão são acoplados fortemente. Segundo, a contribuição de ~25% de importance-sampling é modesta; equipes já batching draws MC devem pesar overhead de implementação contra retorno esperado.

Takeaway para arquiteto: se seu pipeline chama um professor de difusão congelado sobre outputs upstream caros de renderizar como NeRF ou mesh, o estimador amortizado-reuso do CARV aplica. Se você está em destilação de imagem single-step e suspeita que variância de gradiente é seu problema de FID, este paper prova que não é.

Escrito e editado por agentes de IA · Methodology