PhyCo Adiciona Física à Difusão de Vídeo Sem Simuladores

Pesquisadores da Carnegie Mellon University e UC San Diego lançaram PhyCo, um framework que incorpora restrições físicas contínuas e interpretáveis — fricção, restituição, deformação e força aplicada — diretamente em modelos de difusão de vídeo. O resultado: síntese de vídeo fisicamente consistente sem um simulador de física no momento da inferência.

Os modelos atuais de geração de vídeo produzem alta fidelidade visual, mas falham em física básica. Objetos atravessam superfícies. Colisões não produzem ricochete. Deformação de material não tem relação com as propriedades subjacentes. PhyCo aborda essa lacuna usando três componentes. A equipe construiu um dataset de mais de 100.000 vídeos de simulação fotorrealistas nos quais fricção, restituição, deformação e força são variados sistematicamente. Eles ajustaram um modelo de difusão pré-treinado usando um ControlNet condicionado em mapas de propriedades físicas alinhados aos pixels, permitindo que o modelo aceite parâmetros de material como sinais de controle direto. Eles adicionaram otimização de recompensa guiada por VLM: um modelo vision-language avalia clipes gerados em relação a queries de física direcionadas e alimenta feedback diferenciável no loop de treinamento.

No benchmark Physics-IQ, PhyCo melhora realismo físico em relação aos baselines. Estudos com humanos confirmam que as saídas geradas exibem controle mais claro sobre atributos físicos sem simulador ou reconstrução de geometria na inferência.

Para arquitetos empresariais, a vantagem-chave é autonomia no momento da inferência. Abordagens existentes de geração fisicamente fundamentada requerem um engine de física ativo ou malha 3D explícita para restringir saídas — custos que aumentam em escala de produção. PhyCo codifica priors físicos em pesos do modelo via condicionamento ControlNet. Inferência é um passo de difusão padrão. Isso torna PhyCo um candidato para design industrial, visualização de produto e fluxos de trabalho de geração de dados sintéticos que de outra forma exigem infraestrutura de simulador.

A aplicação em robótica é aguda. Treinar políticas de manipulação em vídeo falha quando dinâmicas de contato são irrealistas. Um modelo de vídeo que renderiza corretamente a diferença entre um gripper de borracha contatando metal rígido versus espuma poderia produzir rollouts de treinamento de maior fidelidade — fechando uma lacuna que tem restringido pipelines de dados sintéticos.

O dataset é extraído inteiramente de simulação, e generalização além de ambientes sintéticos é listada como trabalho futuro. O benchmark Physics-IQ cobre um conjunto limitado de fenômenos físicos; o campo carece de uma suite de avaliação de realismo físico padronizada e abrangente. Permanece incerto se o condicionamento ControlNet em mapas de propriedades físicas degrada fidelidade de aparência ou introduz artefatos quando parâmetros de material entram em conflito com a cena visual.

A receita de treinamento requer um backbone de difusão pré-treinado e o dataset sintético — sem licença de simulador proprietário. Para equipes já operando pipelines de conteúdo baseado em difusão ou simulação, o custo marginal de adicionar fundamentação física é agora mensuravelmente menor.

Sources

PhyCo dataset contains over 100,000 photorealistic simulation videos with friction, restitution, deformation, and force systematically varied
"a large-scale dataset of over 100K photorealistic simulation videos where friction, restitution, deformation, and force are systematically varied across diverse scenarios"
arxiv.org ↗
PhyCo uses a ControlNet conditioned on pixel-aligned physical property maps for physics-supervised fine-tuning
"physics-supervised fine-tuning of a pretrained diffusion model using a ControlNet conditioned on pixel-aligned physical property maps"
arxiv.org ↗
PhyCo uses VLM-guided reward optimization where a fine-tuned vision-language model evaluates generated videos with targeted physics queries and provides differentiable feedback
"VLM-guided reward optimization, where a fine-tuned vision-language model evaluates generated videos with targeted physics queries and provides differentiable feedback"
arxiv.org ↗
PhyCo significantly improves physical realism over strong baselines on the Physics-IQ benchmark
"On the Physics-IQ benchmark, PhyCo significantly improves physical realism over strong baselines"
arxiv.org ↗
Human studies confirm clearer and more faithful control over physical attributes in PhyCo outputs
"human studies confirm clearer and more faithful control over physical attributes"
arxiv.org ↗
PhyCo requires no simulator or geometry reconstruction at inference time
"without any simulator or geometry reconstruction at inference"
arxiv.org ↗
PhyCo represents a scalable path toward physically consistent generative video models that generalize beyond synthetic training environments
"Our results demonstrate a scalable path toward physically consistent, controllable generative video models that generalize beyond synthetic training environments"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

PhyCo Adiciona Física à Difusão de Vídeo Sem Simuladores

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.