PhyCo Añade Física a la Difusión de Video Sin Simuladores

Investigadores de Carnegie Mellon University y UC San Diego han lanzado PhyCo, un framework que incorpora restricciones físicas continuas e interpretables — fricción, restitución, deformación y fuerza aplicada — directamente en modelos de difusión de video. El resultado: síntesis de video físicamente consistente sin un simulador de física en el momento de la inferencia.

Los modelos actuales de generación de video producen alta fidelidad visual, pero fallan en física básica. Los objetos atraviesan superficies. Las colisiones no producen rebote. La deformación de material no tiene relación con las propiedades subyacentes. PhyCo aborda esta brecha utilizando tres componentes. El equipo construyó un conjunto de datos de más de 100.000 videos de simulación fotorrealistas en los cuales fricción, restitución, deformación y fuerza varían sistemáticamente. Ajustaron un modelo de difusión preentrenado usando un ControlNet condicionado en mapas de propiedades físicas alineados con píxeles, permitiendo que el modelo acepte parámetros de material como señales de control directo. Superpusieron optimización de recompensa guiada por VLM: un modelo vision-language evalúa clips generados contra consultas de física específicas y alimenta retroalimentación diferenciable en el loop de entrenamiento.

En el benchmark Physics-IQ, PhyCo mejora realismo físico sobre baselines. Estudios con humanos confirman que las salidas generadas exhiben control más claro sobre atributos físicos sin simulador o reconstrucción de geometría en la inferencia.

Para arquitectos empresariales, la ventaja clave es autonomía en tiempo de inferencia. Los enfoques existentes de generación físicamente fundamentada requieren un motor de física activo o una malla 3D explícita para restringir salidas — costos que aumentan a escala de producción. PhyCo codifica priors físicos en pesos del modelo vía condicionamiento ControlNet. La inferencia es una pasada de difusión estándar. Esto hace de PhyCo un candidato para diseño industrial, visualización de productos y flujos de trabajo de generación de datos sintéticos que de otro modo requieren infraestructura de simulador.

La aplicación en robótica es aguda. Entrenar políticas de manipulación en video falla cuando las dinámicas de contacto son irreales. Un modelo de video que renderiza correctamente la diferencia entre un gripper de goma en contacto con metal rígido versus espuma podría producir rollouts de entrenamiento de mayor fidelidad — cerrando una brecha que ha restringido pipelines de datos sintéticos.

El conjunto de datos se extrae enteramente de simulación, y la generalización más allá de entornos sintéticos se cita como trabajo futuro. El benchmark Physics-IQ cubre un conjunto acotado de fenómenos físicos; el campo carece de un conjunto de evaluación de realismo físico estandarizado y comprehensivo. Sigue siendo incierto si el condicionamiento ControlNet en mapas de propiedades físicas degrada la fidelidad de apariencia o introduce artefactos cuando los parámetros de material entran en conflicto con la escena visual.

La receta de entrenamiento requiere una columna vertebral de difusión preentrenada y el conjunto de datos sintético — sin licencia de simulador propietario. Para equipos que ya operan pipelines de contenido basado en difusión o simulación, el costo marginal de añadir fundamentación física es ahora mediblemente menor.

Sources

PhyCo dataset contains over 100,000 photorealistic simulation videos with friction, restitution, deformation, and force systematically varied
"a large-scale dataset of over 100K photorealistic simulation videos where friction, restitution, deformation, and force are systematically varied across diverse scenarios"
arxiv.org ↗
PhyCo uses a ControlNet conditioned on pixel-aligned physical property maps for physics-supervised fine-tuning
"physics-supervised fine-tuning of a pretrained diffusion model using a ControlNet conditioned on pixel-aligned physical property maps"
arxiv.org ↗
PhyCo uses VLM-guided reward optimization where a fine-tuned vision-language model evaluates generated videos with targeted physics queries and provides differentiable feedback
"VLM-guided reward optimization, where a fine-tuned vision-language model evaluates generated videos with targeted physics queries and provides differentiable feedback"
arxiv.org ↗
PhyCo significantly improves physical realism over strong baselines on the Physics-IQ benchmark
"On the Physics-IQ benchmark, PhyCo significantly improves physical realism over strong baselines"
arxiv.org ↗
Human studies confirm clearer and more faithful control over physical attributes in PhyCo outputs
"human studies confirm clearer and more faithful control over physical attributes"
arxiv.org ↗
PhyCo requires no simulator or geometry reconstruction at inference time
"without any simulator or geometry reconstruction at inference"
arxiv.org ↗
PhyCo represents a scalable path toward physically consistent generative video models that generalize beyond synthetic training environments
"Our results demonstrate a scalable path toward physically consistent, controllable generative video models that generalize beyond synthetic training environments"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

PhyCo Añade Física a la Difusión de Video Sin Simuladores

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.