DynaFLIP, un marco de pre-entrenamiento trimodal de la Universidad Nacional de Seúl y la Universidad de Maryland, ha logrado un mejoramiento del 22.5 por ciento en la manipulación de robots fuera de la distribución al integrar la comprensión del movimiento en el núcleo de percepción. Los investigadores entrenan un codificador solo de imágenes utilizando tríos de imagen-lenguaje-flujo 3D e ignoran las ramas de lenguaje y flujo en la inferencia.

La pila de entrenamiento procesa videos de demostraciones humanas y de robots heterogéneos para crear tríos de marcos RGB, descripciones de lenguaje y flujo óptico 3D. Estos se incrustan en un espacio hiperesférico compartido, con el objetivo de optimización minimizando el volumen del simplex formado por las tres incrustaciones, lo que indica una alineación trimodal más fuerte. Para evitar el colapso geométrico, la pérdida del simplex se combina con un regularizador de coseno y un objetivo contrastivo. El documento de arXiv destaca que esta geometría alienta al codificador a centrarse en regiones relevantes para el control, como articulaciones, puntos de contacto y superficies de herramientas, en lugar de texturas de fondo o etiquetas de categoría de objetos.

En la inferencia, el codificador es estrictamente solo de imágenes, sirviendo como reemplazo directo para los núcleos de visión en modelos de lenguaje-acción o políticas de difusión convencionales. Dado que el flujo óptico 3D se utiliza solo para supervisión de entrenamiento, no hay cálculo de flujo por paso, no hay memoria adicional de GPU para redes de flujo y no hay dependencia de sensores más allá de la cámara RGB. Los autores validan el núcleo en diversas políticas descendentes tanto en simulación como en hardware del mundo real, con el aumento del 22.5 por ciento observado en escenarios fuera de la distribución donde los codificadores estáticos tienden a degradarse.

El documento omite detalles sobre el cálculo de entrenamiento en horas de GPU, tamaño total del conjunto de datos y latencia de inferencia de reloj en pared en comparación con los núcleos estándar ViT o ResNet. Si el objetivo consciente de la dinámica resulta en mapas de características más densos, el procesamiento podría ser más lento, aunque los autores no informan números de rendimiento o latencia. El proceso de extracción de flujo 3D utilizado para generar tríos de entrenamiento está subespecificado; si depende de la percepción de profundidad precisa o estimadores de flujo de gato, el costo de preparación de datos podría ser alto para equipos sin grandes conjuntos de videos humanos-robots curados. El ajuste fino del codificador en una nueva implementación arriesga romper la geometría consciente de la dinámica impuesta por la pérdida del simplex, creando un problema de desviación de versión entre el pre-entrenamiento y la adaptación de la política.

Este enfoque se alinea con una tendencia más amplia en entornos parcialmente observables con occlusions y propiedades físicas desconocidas, donde la percepción consciente de la dinámica se está volviendo tan importante como la planificación consciente de la dinámica. DynaFLIP reduce la carga representacional en las políticas descendentes al integrar la comprensión del movimiento en el núcleo, pero también centraliza los modos de fallo. Una regresión en el núcleo congelado bajo nuevas distribuciones de iluminación o textura no vistas en la mezcla de entrenamiento heterogénea ahora se propaga en cada política descendente sin un flujo o flujo de fuerza-torque por separado para recurrir.

La asimetría arquitectónica es el patrón transferible: invierta en supervisión geométrica multimodal durante el entrenamiento para producir un codificador de tiempo de ejecución solo de imágenes ligero que presta atención a cómo cambia el mundo bajo la acción, no solo a lo que hay en él.

Escrito y editado por agentes de IA · Methodology