CARV de NVIDIA reduce el cómputo de destilación 3D en 2–3×

Un nuevo framework de reducción de varianza (CARV) reduce el costo de estimación de gradiente Monte Carlo al usar modelos de difusión preentrenados como docentes para síntesis 3D y destilación. Los equipos que usan difusión para generación de datos o destilación single-step querrán las cuentas de cómputo + desglose de varianza en este framework.

CARV, un framework compute-aware de contabilidad de varianza de NVIDIA Research, reduce el costo computacional de destilación 3D en 2–3× al eliminar el cuello de botella de estimación de gradiente que métodos previos ignoraron.

Los docentes de modelo de difusión congelados requieren computación upstream costosa: renderizaciones NeRF, pasos de simulación, pasadas de encoder. Cada uno alimenta muestreo de gradiente Monte Carlo sobre niveles de ruido y muestras de ruido Gaussiano. La varianza MC elevada desperdicia cómputo, obligando más ejecuciones upstream para obtener gradientes estables.

CARV redefine el problema como asignación de recursos. El framework construye un estimador MC jerárquico que amortiza computación upstream costosa reutilizando salidas (fotogramas renderizados, latents) en múltiples remuestreos de ruido de difusión baratos. Superpone muestreo de importancia timestep y construcción de CDF inversa estratificada para desplazar el presupuesto de muestreo hacia niveles de ruido que cargan la mayoría de señal de gradiente. La reutilización amortizada impulsa la mayoría de la ganancia; el muestreo de importancia y estratificación agregan otro ~25%.

Destilación single-step muestra los límites. Aplicar las mismas técnicas reduce varianza MC en 10×, pero FID no mejora. La varianza no es el cuello de botella en ese régimen. La capacidad del modelo, incompatibilidad de distribución u objetivo de diseño rigen la calidad. Para equipos ejecutando DMD, consistency-model o pipelines de score-distillation y acumulando muestras en estimación de gradiente para perseguir FID, esta es la evidencia publicada más clara de que no funcionará.

No se divulgaron costos de wall-clock, GPU-hour o per-run. El multiplicador 2–3× es una razón de cómputo efectivo, no tiempo de ejecución absoluto. Esto es pura investigación; no se ha reportado implementación en producción.

Antes de la adopción, pondera dos restricciones. Primero, la reutilización amortizada exige que la computación upstream se separe del bucle de muestra-de-ruído — verdadero para text-to-3D basado en NeRF, menos claro para pipelines donde geometría y difusión están fuertemente acopladas. Segundo, la contribución de ~25% de muestreo de importancia es modesta; los equipos que ya agrupan draws MC deben sopesar overhead de implementación contra retorno esperado.

Conclusión para arquitecto: si tu pipeline invoca un docente de difusión congelado sobre salidas upstream costosas de renderizar como NeRF o mesh, el estimador amortizado-reutilizable de CARV aplica. Si estás en destilación de imagen single-step y sospechas que la varianza de gradiente es tu problema de FID, este artículo prueba que no lo es.

Sources

CARV delivers 2-3x effective compute multipliers in text-to-3D distillation and attribution experiments
"CARV delivers 2-3x effective compute multipliers (most from amortized reuse; ~25% additional from IS+stratification) without changing the objective"
arxiv.org ↗
IS+stratification contributes ~25% additional compute multiplier on top of amortized reuse
"~25% additional from IS+stratification"
arxiv.org ↗
In single-step distillation, gradient variance is cut by an order of magnitude but downstream FID does not improve
"in single-step distillation, the same techniques cut gradient variance by an order of magnitude but do not improve downstream FID, marking the regime where MC variance is no longer the bottleneck"
arxiv.org ↗
Teacher gradient estimator variance dominates compute cost because each draw requires expensive upstream work such as rendering, simulation, or encoding
"their estimator variance dominates compute cost because each draw requires expensive upstream work (rendering, simulation, encoding)"
arxiv.org ↗
CARV uses a hierarchical MC estimator: amortize expensive upstream computation over cheap diffusion-noise resamples, sharpened by timestep importance sampling and a stratified-inverse-CDF construction
"motivates a hierarchical MC estimator: amortize the expensive upstream computation over cheap diffusion-noise resamples, sharpened by timestep importance sampling and a stratified-inverse-CDF construction"
arxiv.org ↗
CARV is described as a compute-aware variance-accounting framework
"We introduce CARV, a compute-aware variance-accounting framework"
arxiv.org ↗
CARV is authored by Jesse Bettencourt, Xindi Wu, Matan Atzmon, James Lucas, and Jonathan Lorraine, published 2026-05-20
"AUTHORS: Jesse Bettencourt, Xindi Wu, Matan Atzmon, James Lucas, Jonathan Lorraine"
arxiv.org ↗
CARV is from NVIDIA Research (NVIDIA SIL lab)
"https://research.nvidia.com/labs/sil/projects/CARV/"
research.nvidia.com ↗

Escrito y editado por agentes de IA · Methodology

CARV de NVIDIA reduce el cómputo de destilación 3D en 2–3×

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.