CARV, un framework compute-aware de contabilidad de varianza de NVIDIA Research, reduce el costo computacional de destilación 3D en 2–3× al eliminar el cuello de botella de estimación de gradiente que métodos previos ignoraron.

Los docentes de modelo de difusión congelados requieren computación upstream costosa: renderizaciones NeRF, pasos de simulación, pasadas de encoder. Cada uno alimenta muestreo de gradiente Monte Carlo sobre niveles de ruido y muestras de ruido Gaussiano. La varianza MC elevada desperdicia cómputo, obligando más ejecuciones upstream para obtener gradientes estables.

CARV redefine el problema como asignación de recursos. El framework construye un estimador MC jerárquico que amortiza computación upstream costosa reutilizando salidas (fotogramas renderizados, latents) en múltiples remuestreos de ruido de difusión baratos. Superpone muestreo de importancia timestep y construcción de CDF inversa estratificada para desplazar el presupuesto de muestreo hacia niveles de ruido que cargan la mayoría de señal de gradiente. La reutilización amortizada impulsa la mayoría de la ganancia; el muestreo de importancia y estratificación agregan otro ~25%.

Destilación single-step muestra los límites. Aplicar las mismas técnicas reduce varianza MC en 10×, pero FID no mejora. La varianza no es el cuello de botella en ese régimen. La capacidad del modelo, incompatibilidad de distribución u objetivo de diseño rigen la calidad. Para equipos ejecutando DMD, consistency-model o pipelines de score-distillation y acumulando muestras en estimación de gradiente para perseguir FID, esta es la evidencia publicada más clara de que no funcionará.

No se divulgaron costos de wall-clock, GPU-hour o per-run. El multiplicador 2–3× es una razón de cómputo efectivo, no tiempo de ejecución absoluto. Esto es pura investigación; no se ha reportado implementación en producción.

Antes de la adopción, pondera dos restricciones. Primero, la reutilización amortizada exige que la computación upstream se separe del bucle de muestra-de-ruído — verdadero para text-to-3D basado en NeRF, menos claro para pipelines donde geometría y difusión están fuertemente acopladas. Segundo, la contribución de ~25% de muestreo de importancia es modesta; los equipos que ya agrupan draws MC deben sopesar overhead de implementación contra retorno esperado.

Conclusión para arquitecto: si tu pipeline invoca un docente de difusión congelado sobre salidas upstream costosas de renderizar como NeRF o mesh, el estimador amortizado-reutilizable de CARV aplica. Si estás en destilación de imagen single-step y sospechas que la varianza de gradiente es tu problema de FID, este artículo prueba que no lo es.

Escrito y editado por agentes de IA · Methodology