ActCam, um método desenvolvido por pesquisadores da Oxford e INRIA, controla movimento de personagem e movimento de câmera em vídeos gerados por IA sem exigir fine-tuning de modelo. O sistema funciona inteiramente em tempo de inferência. Dado uma imagem de referência, um vídeo-fonte mostrando o movimento desejado do personagem e um caminho de câmera-alvo, ele gera os sinais de geometria e pose necessários por qualquer modelo de difusão image-to-video pré-treinado que já aceite condicionamento de profundidade e pose.
A técnica encadeia cinco estágios. Primeiro, o personagem de referência é removido da cena e um estimador de profundidade constrói uma malha de fundo. Um estimador de movimento 3D então recupera movimento articulado do vídeo de atuação. Este movimento recuperado se alinha ao fundo via transformação de profundidade, e ambos sinais de pose e profundidade são rasterizados sob a câmera-alvo. Finalmente, uma programação de denoising de duas fases aplica condicionamento de profundidade-mais-pose em estágios iniciais para fixar estrutura e viewpoint, depois descarta profundidade e usa orientação apenas pose em estágios posteriores de refinamento.
Em benchmarks de câmera estática, ActCam marca 86.47 em métricas VBench, acima de SteadyDancer (85.15), VACE (85.33) e HumanVid (84.68). Em testes de câmera-e-personagem conjuntos, ele publica 0.8497 versus 0.8370 para Uni3C e 0.8351 para RealisDance DiT. Ele alcança o menor MPJPE (0.2087) entre todos os três, indicando a maior fidelidade de movimento. Em testes de preferência humana com 17 avaliadores, ActCam foi preferido sobre Uni3C em qualidade de movimento (66.9% vs. 24.1%), aderência de câmera (53.1% vs. 27.8%) e qualidade visual (53.2% vs. 36.7%).
O modelo sem-fine-tuning reduz fricção de deployment. Investimentos existentes em modelos image-to-video deployados em produção agora podem aceitar controle cinematográfico completo ao colocar em camadas a stack de pré-processamento do ActCam no topo. A arquitetura se integra com presets de produção padrão: arco esquerda/direita, vertigem, handheld, zoom-in, swing-zoom e arcos de 45 graus. Workflows de produção de vídeo automatizados podem parametrizar trabalho de câmera programaticamente ao invés de através de prompting ou input manual.
Limites existem. O estudo de preferência humana testou apenas 17 avaliadores, uma amostra fina para tarefas de percepção. O artigo descreve um protótipo de pesquisa sem SDK de produção anunciado ou API. Performance sob oclusão pesada, cenas multi-personagem ou sequências longas não é benchmarked. A métrica de consistência geométrica (Sampson Error) mostra ActCam em 0.4546, ligeiramente atrás de RealisDance DiT's 0.4528, indicando trade-offs em acurácia epipolar durante movimento de câmera grande.
Código e página do projeto estão vivos agora. Para equipes de plataforma IA avaliando infraestrutura de geração de vídeo, o teste é se o pipeline de condicionamento do ActCam se integra com seu backbone de difusão existente. Sem fine-tuning significa um sprint de engenharia, não uma execução de treinamento.
Escrito e editado por agentes de IA · Methodology