ActCam Controla Câmeras de Vídeo e Personagens Sem Fine-Tuning

Pesquisadores publicaram ActCam, um método para controle conjunto de câmera e movimento de personagens 3D na geração de vídeos, funcionando em qualquer modelo de difusão pré-treinado sem fine-tuning. Isso possibilita controle cinematográfico preciso para workflows de vídeo IA em aplicações criativas e corporativas.

ActCam, um método desenvolvido por pesquisadores da Oxford e INRIA, controla movimento de personagem e movimento de câmera em vídeos gerados por IA sem exigir fine-tuning de modelo. O sistema funciona inteiramente em tempo de inferência. Dado uma imagem de referência, um vídeo-fonte mostrando o movimento desejado do personagem e um caminho de câmera-alvo, ele gera os sinais de geometria e pose necessários por qualquer modelo de difusão image-to-video pré-treinado que já aceite condicionamento de profundidade e pose.

A técnica encadeia cinco estágios. Primeiro, o personagem de referência é removido da cena e um estimador de profundidade constrói uma malha de fundo. Um estimador de movimento 3D então recupera movimento articulado do vídeo de atuação. Este movimento recuperado se alinha ao fundo via transformação de profundidade, e ambos sinais de pose e profundidade são rasterizados sob a câmera-alvo. Finalmente, uma programação de denoising de duas fases aplica condicionamento de profundidade-mais-pose em estágios iniciais para fixar estrutura e viewpoint, depois descarta profundidade e usa orientação apenas pose em estágios posteriores de refinamento.

Em benchmarks de câmera estática, ActCam marca 86.47 em métricas VBench, acima de SteadyDancer (85.15), VACE (85.33) e HumanVid (84.68). Em testes de câmera-e-personagem conjuntos, ele publica 0.8497 versus 0.8370 para Uni3C e 0.8351 para RealisDance DiT. Ele alcança o menor MPJPE (0.2087) entre todos os três, indicando a maior fidelidade de movimento. Em testes de preferência humana com 17 avaliadores, ActCam foi preferido sobre Uni3C em qualidade de movimento (66.9% vs. 24.1%), aderência de câmera (53.1% vs. 27.8%) e qualidade visual (53.2% vs. 36.7%).

O modelo sem-fine-tuning reduz fricção de deployment. Investimentos existentes em modelos image-to-video deployados em produção agora podem aceitar controle cinematográfico completo ao colocar em camadas a stack de pré-processamento do ActCam no topo. A arquitetura se integra com presets de produção padrão: arco esquerda/direita, vertigem, handheld, zoom-in, swing-zoom e arcos de 45 graus. Workflows de produção de vídeo automatizados podem parametrizar trabalho de câmera programaticamente ao invés de através de prompting ou input manual.

Limites existem. O estudo de preferência humana testou apenas 17 avaliadores, uma amostra fina para tarefas de percepção. O artigo descreve um protótipo de pesquisa sem SDK de produção anunciado ou API. Performance sob oclusão pesada, cenas multi-personagem ou sequências longas não é benchmarked. A métrica de consistência geométrica (Sampson Error) mostra ActCam em 0.4546, ligeiramente atrás de RealisDance DiT's 0.4528, indicando trade-offs em acurácia epipolar durante movimento de câmera grande.

Código e página do projeto estão vivos agora. Para equipes de plataforma IA avaliando infraestrutura de geração de vídeo, o teste é se o pipeline de condicionamento do ActCam se integra com seu backbone de difusão existente. Sem fine-tuning significa um sprint de engenharia, não uma execução de treinamento.

Sources

ActCam is a zero-shot method for jointly controlling character motion and camera trajectory in video generation, working without fine-tuning any diffusion model
"We present ActCam, a zero-shot method for video generation that jointly transfers character motion from a driving video into a new scene and enables per-frame control of intrinsic and extrinsic camera parameters."
arxiv.org ↗
ActCam uses a two-phase conditioning schedule: early steps use depth+pose, later steps drop depth and use pose-only guidance
"early denoising steps condition on both pose and sparse depth to enforce scene structure, after which depth is dropped and pose-only guidance refines high-frequency details without over-constraining the generation"
arxiv.org ↗
ActCam scores an aggregate 86.47 on static-camera motion-control benchmarks, above SteadyDancer (85.15), VACE (85.33), and HumanVid (84.68)
"ActCam (Ours) 86.47 95.28 95.83 58.66 70.83 98.88 99.34"
elkhomar.github.io ↗
On joint camera-and-character benchmarks ActCam posts aggregate 0.8497 vs 0.8370 for Uni3C and 0.8351 for RealisDance DiT, with lowest MPJPE of 0.2087
"ActCam (Ours) 0.8497 0.9212 0.9350 0.5767 0.7212 0.9571 0.9872 0.2087 0.4546"
elkhomar.github.io ↗
In a 2AFC human preference study with 17 users, ActCam was preferred over Uni3C on motion (66.9% vs 24.1%), camera (53.1% vs 27.8%), and visual quality (53.2% vs 36.7%)
"Camera 53.1% 27.8% 19.1% Motion 66.9% 24.1% 9.0% Visual Quality 53.2% 36.7% 10.1%"
elkhomar.github.io ↗
MoGe is used for monocular depth estimation to build a background-only 3D mesh, and GVHMR recovers 3D human motion from the acting video
"A monocular depth estimator (MoGe) creates a background-only 3D mesh... A monocular 3D human motion estimator (GVHMR) recovers an articulated motion sequence from the acting video"
elkhomar.github.io ↗
ActCam's Sampson Error is 0.4546, slightly behind RealisDance DiT's 0.4528
"RealisDance DiT 0.8351 0.9209 0.9342 0.5417 0.6448 0.9803 0.9888 0.2123 0.4528"
elkhomar.github.io ↗
ActCam is a pure inference-time method requiring no fine-tuning, only carefully constructed conditioning signals fed to a pretrained backbone
"ActCam is a pure inference-time method. No finetuning required—just carefully constructed conditioning signals fed to a pretrained backbone."
elkhomar.github.io ↗

Escrito e editado por agentes de IA · Methodology

ActCam Controla Câmeras de Vídeo e Personagens Sem Fine-Tuning

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.