AHA-WAM logra un control de robot 4.59 veces más rápido al desacoplar Transformadores de Difusión

AHA-WAM, una arquitectura dual de Transformadores de Difusión, ha logrado una tasa de control de robot de bucle cerrado de 24.17 Hz y ha obtenido un 92.80% de éxito promedio en el benchmark de simulación RoboTwin, y un 78.3% en cuatro tareas de manipulación del mundo real, sin ningún preentrenamiento de datos de robot. El artículo de arXiv argumenta que los modelos de mundo-acción existentes son ineficientes ya que fuerzan a la predicción del mundo y la ejecución de acciones a compartir la misma frecuencia de reloj, proponiendo una solución a nivel de arquitectura.

La pila incluye dos DiTs: un video DiT de baja frecuencia para la planificación del mundo, manteniendo una memoria clave-valor en tiempo real sobre observaciones pasadas y proporcionando contexto latente capa a capa para la evolución de la escena a largo plazo, y un DiT de acción de alta frecuencia para ejecutar fragmentos de acción cortos en bucle cerrado, consultando el contexto almacenado a través de atención conjunta capa a capa. Para evitar que el contexto obsoleto afecte la reactividad, los autores introdujeron la Ruta de Contexto de Vídeo Guiada por Observación (OVCR), permitiendo que la rama de acción ingiera observaciones frescas sin una pasada completa del video DiT hacia adelante, y el entrenamiento de desplazamiento adaptable al horizonte, que enseña al DiT de acción a tolerar retrasos variables entre las actualizaciones del mundo. Este desacoplamiento estructural permite que AHA-WAM sea 4.59 veces más rápido que Fast-WAM, el anterior estado del arte, que funcionó con una latencia de 190 ms, aproximadamente 5.26 Hz.

En comparación con otros enfoques, el WAM de 14B de DreamZero toma 5.7 segundos por fragmento de acción y solo alcanza aproximadamente 7 Hz después de la ejecución asincrónica optimizada por Flash. X-WAM, que se basa en la Muestreo de Ruido Asincrónico para decodificar acciones rápidamente con menos pasos, obtiene un 90.7% en RoboTwin 2.0 pero no informa la latencia por fragmento y requiere preentrenamiento en más de 5,800 horas de datos robóticos. El 24.17 Hz de AHA-WAM se traduce en aproximadamente 41 ms por fragmento de acción, logrado sin ningún preentrenamiento más allá de las demostraciones específicas de la tarea.

Sin embargo, la validación en el mundo real se limita a cuatro tareas de manipulación, haciendo que el índice de éxito del 78.3% sea un indicador débil para la transferencia de simulación a realidad. El artículo no proporciona especificaciones de hardware, huellas de memoria GPU o el costo de servicio de mantener dos DiTs residentes mientras se gestiona el estado de la memoria KV en tiempo real y la lógica de enrutamiento OVCR en el bucle de control. Las pilas de producción ahora deben manejar dos tuberías temporales independientes: planificador del mundo y ejecutor de acciones, introduciendo potenciales jitter, modos de fallo de sincronización y presión de memoria que no estaban presentes en los WAMs monolíticos. También no está claro cómo se comporta la memoria KV durante episodios a largo plazo que abarcan minutos o si la deriva de contexto se acumula sin actualizaciones periódicas del planificador.

Sources

AHA-WAM achieves 92.80% average success on RoboTwin, 78.3% across 4 real-world tasks, 24.17 Hz closed-loop control, 4.59× speedup over Fast-WAM, without robot-data pretraining
"AHA-WAM achieves state-of-the-art performance without any robot-data pretraining, attaining 92.80% average success on RoboTwin and 78.3% success across 4 real-world tasks, while reaching 24.17 Hz closed-loop control with a 4.59x speedup over Fast-WAM."
arxiv.org ↗
AHA-WAM uses a dual DiT: a low-frequency video DiT maintains rolling KV memory; a high-frequency action DiT queries it via layerwise joint attention
"AHA-WAM instantiates the video DiT as a low-frequency world planner that maintains rolling key-value memory over past observations and exposes reusable layerwise latent context encoding long-horizon scene evolution, while a high-frequency action DiT executes short action chunks in closed loop by querying this context through layerwise joint attention."
arxiv.org ↗
OVCR and horizon-adaptive offset training let the action DiT ingest fresh observations without re-running the video DiT
"we introduce horizon-adaptive offset training and Observation-Guided Video-Context Routing (OVCR), which together let the action expert exploit long-horizon world context while remaining responsive to real-time execution state without rerunning the video DiT."
arxiv.org ↗
Fast-WAM runs at 190 ms latency (derived: ~5.26 Hz)
"Fast-WAM achieves competitive results with state-of-the-art methods both on simulation benchmarks (LIBERO and RoboTwin) and real-world tasks, without embodied pretraining. It runs in real time with 190 ms latency, over 4× faster than existing imagine-then-execute WAMs."
arxiv.org ↗
Fast-WAM's value of video prediction lies in training-time world representations, not test-time future imagination
"These results suggest that the main value of video prediction in WAMs may lie in improving world representations during training rather than generating future observations at test time."
arxiv.org ↗
X-WAM scores 90.7% on RoboTwin 2.0 and requires pretraining on over 5,800 hours of robotic data
"Pretrained on over 5,800 hours of robotic data, X-WAM achieves 79.2% and 90.7% average success rate on RoboCasa and RoboTwin 2.0 benchmarks"
arxiv.org ↗
DreamZero's 14B WAM requires 5.7 seconds per action chunk in naive implementation
"A naive implementation of DreamZero on a single GPU requires approximately 5.7 seconds per action chunk due to three bottlenecks: (1) iterative denoising across 16 diffusion steps required for smooth actions, (2) the computational cost of a 14B parameter DiT backbone, and (3) sequential execution that blocks robot motion during inference."
arxiv.org ↗
DreamZero achieves ~7 Hz with Flash-optimized asynchronous execution
"these techniques achieve a 38× inference speedup without degrading performance, enabling DreamZero to generate action chunks at approximately 7Hz for smooth, real-time robotic control"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

AHA-WAM logra un control de robot 4.59 veces más rápido al desacoplar Transformadores de Difusión

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.