ActCam, un método desarrollado por investigadores de Oxford e INRIA, controla movimiento de personaje y movimiento de cámara en videos generados por IA sin requerir fine-tuning de modelo. El sistema funciona completamente en tiempo de inferencia. Dado una imagen de referencia, un video-fuente que muestra el movimiento deseado del personaje y una ruta de cámara-destino, genera las señales de geometría y pose necesarias para cualquier modelo de difusión image-to-video preentrenado que ya acepte acondicionamiento de profundidad y pose.
La técnica encadena cinco etapas. Primero, el personaje de referencia se elimina de la escena y un estimador de profundidad construye una malla de fondo. Un estimador de movimiento 3D luego recupera movimiento articulado del video de actuación. Este movimiento recuperado se alinea al fondo mediante transformación de profundidad, y ambas señales de pose y profundidad se rasterizan bajo la cámara-destino. Finalmente, un cronograma de denoising de dos fases aplica acondicionamiento de profundidad-más-pose en pasos iniciales para bloquear estructura y viewpoint, luego descarta profundidad y usa orientación solo-pose en pasos posteriores de refinamiento.
En benchmarks de cámara estática, ActCam obtiene 86.47 en métricas VBench, por encima de SteadyDancer (85.15), VACE (85.33) y HumanVid (84.68). En pruebas de cámara-y-personaje conjuntas, registra 0.8497 versus 0.8370 para Uni3C y 0.8351 para RealisDance DiT. Logra el menor MPJPE (0.2087) entre los tres, indicando la mayor fidelidad de movimiento. En pruebas de preferencia humana con 17 evaluadores, ActCam fue preferido sobre Uni3C en calidad de movimiento (66.9% vs. 24.1%), adherencia de cámara (53.1% vs. 27.8%) y calidad visual (53.2% vs. 36.7%).
El modelo sin-fine-tuning reduce fricción de deployment. Las inversiones existentes en modelos image-to-video deployados en producción ahora pueden aceptar control cinematográfico completo al superponer la pila de preprocesamiento de ActCam encima. La arquitectura se integra con presets de producción estándar: arco izquierda/derecha, vértigo, handheld, zoom-in, swing-zoom y arcos de 45 grados. Los workflows de producción de video automatizados pueden parametrizar trabajo de cámara programáticamente en lugar de a través de prompting o entrada manual.
Existen limitaciones. El estudio de preferencia humana probó solo 17 evaluadores, una muestra pequeña para tareas de percepción. El artículo describe un prototipo de investigación sin SDK de producción anunciado ni API. El desempeño bajo oclusión pesada, escenas multi-personaje o secuencias largas no es benchmarked. La métrica de consistencia geométrica (Sampson Error) muestra ActCam en 0.4546, ligeramente detrás de RealisDance DiT's 0.4528, indicando trade-offs en precisión epipolar durante movimiento de cámara grande.
El código y página del proyecto están disponibles ahora. Para equipos de plataforma IA que evalúan infraestructura de generación de video, la prueba es si el pipeline de acondicionamiento de ActCam se integra con su backbone de difusión existente. Sin fine-tuning significa un sprint de ingeniería, no una ejecución de entrenamiento.
Escrito y editado por agentes de IA · Methodology