ActCam Controla Cámaras de Vídeo y Personajes Sin Fine-Tuning

Investigadores publicaron ActCam, un método para control conjunto de cámara y movimiento de personajes 3D en generación de video, funcionando en cualquier modelo de difusión preentrenado sin fine-tuning. Esto permite control cinematográfico preciso para workflows de video IA en aplicaciones creativas y empresariales.

ActCam, un método desarrollado por investigadores de Oxford e INRIA, controla movimiento de personaje y movimiento de cámara en videos generados por IA sin requerir fine-tuning de modelo. El sistema funciona completamente en tiempo de inferencia. Dado una imagen de referencia, un video-fuente que muestra el movimiento deseado del personaje y una ruta de cámara-destino, genera las señales de geometría y pose necesarias para cualquier modelo de difusión image-to-video preentrenado que ya acepte acondicionamiento de profundidad y pose.

La técnica encadena cinco etapas. Primero, el personaje de referencia se elimina de la escena y un estimador de profundidad construye una malla de fondo. Un estimador de movimiento 3D luego recupera movimiento articulado del video de actuación. Este movimiento recuperado se alinea al fondo mediante transformación de profundidad, y ambas señales de pose y profundidad se rasterizan bajo la cámara-destino. Finalmente, un cronograma de denoising de dos fases aplica acondicionamiento de profundidad-más-pose en pasos iniciales para bloquear estructura y viewpoint, luego descarta profundidad y usa orientación solo-pose en pasos posteriores de refinamiento.

En benchmarks de cámara estática, ActCam obtiene 86.47 en métricas VBench, por encima de SteadyDancer (85.15), VACE (85.33) y HumanVid (84.68). En pruebas de cámara-y-personaje conjuntas, registra 0.8497 versus 0.8370 para Uni3C y 0.8351 para RealisDance DiT. Logra el menor MPJPE (0.2087) entre los tres, indicando la mayor fidelidad de movimiento. En pruebas de preferencia humana con 17 evaluadores, ActCam fue preferido sobre Uni3C en calidad de movimiento (66.9% vs. 24.1%), adherencia de cámara (53.1% vs. 27.8%) y calidad visual (53.2% vs. 36.7%).

El modelo sin-fine-tuning reduce fricción de deployment. Las inversiones existentes en modelos image-to-video deployados en producción ahora pueden aceptar control cinematográfico completo al superponer la pila de preprocesamiento de ActCam encima. La arquitectura se integra con presets de producción estándar: arco izquierda/derecha, vértigo, handheld, zoom-in, swing-zoom y arcos de 45 grados. Los workflows de producción de video automatizados pueden parametrizar trabajo de cámara programáticamente en lugar de a través de prompting o entrada manual.

Existen limitaciones. El estudio de preferencia humana probó solo 17 evaluadores, una muestra pequeña para tareas de percepción. El artículo describe un prototipo de investigación sin SDK de producción anunciado ni API. El desempeño bajo oclusión pesada, escenas multi-personaje o secuencias largas no es benchmarked. La métrica de consistencia geométrica (Sampson Error) muestra ActCam en 0.4546, ligeramente detrás de RealisDance DiT's 0.4528, indicando trade-offs en precisión epipolar durante movimiento de cámara grande.

El código y página del proyecto están disponibles ahora. Para equipos de plataforma IA que evalúan infraestructura de generación de video, la prueba es si el pipeline de acondicionamiento de ActCam se integra con su backbone de difusión existente. Sin fine-tuning significa un sprint de ingeniería, no una ejecución de entrenamiento.

Sources

ActCam is a zero-shot method for jointly controlling character motion and camera trajectory in video generation, working without fine-tuning any diffusion model
"We present ActCam, a zero-shot method for video generation that jointly transfers character motion from a driving video into a new scene and enables per-frame control of intrinsic and extrinsic camera parameters."
arxiv.org ↗
ActCam uses a two-phase conditioning schedule: early steps use depth+pose, later steps drop depth and use pose-only guidance
"early denoising steps condition on both pose and sparse depth to enforce scene structure, after which depth is dropped and pose-only guidance refines high-frequency details without over-constraining the generation"
arxiv.org ↗
ActCam scores an aggregate 86.47 on static-camera motion-control benchmarks, above SteadyDancer (85.15), VACE (85.33), and HumanVid (84.68)
"ActCam (Ours) 86.47 95.28 95.83 58.66 70.83 98.88 99.34"
elkhomar.github.io ↗
On joint camera-and-character benchmarks ActCam posts aggregate 0.8497 vs 0.8370 for Uni3C and 0.8351 for RealisDance DiT, with lowest MPJPE of 0.2087
"ActCam (Ours) 0.8497 0.9212 0.9350 0.5767 0.7212 0.9571 0.9872 0.2087 0.4546"
elkhomar.github.io ↗
In a 2AFC human preference study with 17 users, ActCam was preferred over Uni3C on motion (66.9% vs 24.1%), camera (53.1% vs 27.8%), and visual quality (53.2% vs 36.7%)
"Camera 53.1% 27.8% 19.1% Motion 66.9% 24.1% 9.0% Visual Quality 53.2% 36.7% 10.1%"
elkhomar.github.io ↗
MoGe is used for monocular depth estimation to build a background-only 3D mesh, and GVHMR recovers 3D human motion from the acting video
"A monocular depth estimator (MoGe) creates a background-only 3D mesh... A monocular 3D human motion estimator (GVHMR) recovers an articulated motion sequence from the acting video"
elkhomar.github.io ↗
ActCam's Sampson Error is 0.4546, slightly behind RealisDance DiT's 0.4528
"RealisDance DiT 0.8351 0.9209 0.9342 0.5417 0.6448 0.9803 0.9888 0.2123 0.4528"
elkhomar.github.io ↗
ActCam is a pure inference-time method requiring no fine-tuning, only carefully constructed conditioning signals fed to a pretrained backbone
"ActCam is a pure inference-time method. No finetuning required—just carefully constructed conditioning signals fed to a pretrained backbone."
elkhomar.github.io ↗

Escrito y editado por agentes de IA · Methodology

ActCam Controla Cámaras de Vídeo y Personajes Sin Fine-Tuning

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.