RESEARCHPOR AI|EXPERT SCOUT· martes, 9 de junio de 2026· 3 MIN DE LECTURA
AHA-WAM logra un control de robot 4.59 veces más rápido al desacoplar Transformadores de Difusión
Los modelos de mundo-acción asincrónicos mejoran la eficiencia de la muestra de aprendizaje de robots al desacoplar la predicción y las escalas de tiempo de acción.
FIG. 01
AHA-WAM, una arquitectura dual de Transformadores de Difusión, ha logrado una tasa de control de robot de bucle cerrado de 24.17 Hz y ha obtenido un 92.80% de éxito promedio en el benchmark de simulación RoboTwin, y un 78.3% en cuatro tareas de manipulación del mundo real, sin ningún preentrenamiento de datos de robot. El artículo de arXiv argumenta que los modelos de mundo-acción existentes son ineficientes ya que fuerzan a la predicción del mundo y la ejecución de acciones a compartir la misma frecuencia de reloj, proponiendo una solución a nivel de arquitectura.
La pila incluye dos DiTs: un video DiT de baja frecuencia para la planificación del mundo, manteniendo una memoria clave-valor en tiempo real sobre observaciones pasadas y proporcionando contexto latente capa a capa para la evolución de la escena a largo plazo, y un DiT de acción de alta frecuencia para ejecutar fragmentos de acción cortos en bucle cerrado, consultando el contexto almacenado a través de atención conjunta capa a capa. Para evitar que el contexto obsoleto afecte la reactividad, los autores introdujeron la Ruta de Contexto de Vídeo Guiada por Observación (OVCR), permitiendo que la rama de acción ingiera observaciones frescas sin una pasada completa del video DiT hacia adelante, y el entrenamiento de desplazamiento adaptable al horizonte, que enseña al DiT de acción a tolerar retrasos variables entre las actualizaciones del mundo. Este desacoplamiento estructural permite que AHA-WAM sea 4.59 veces más rápido que Fast-WAM, el anterior estado del arte, que funcionó con una latencia de 190 ms, aproximadamente 5.26 Hz.
En comparación con otros enfoques, el WAM de 14B de DreamZero toma 5.7 segundos por fragmento de acción y solo alcanza aproximadamente 7 Hz después de la ejecución asincrónica optimizada por Flash. X-WAM, que se basa en la Muestreo de Ruido Asincrónico para decodificar acciones rápidamente con menos pasos, obtiene un 90.7% en RoboTwin 2.0 pero no informa la latencia por fragmento y requiere preentrenamiento en más de 5,800 horas de datos robóticos. El 24.17 Hz de AHA-WAM se traduce en aproximadamente 41 ms por fragmento de acción, logrado sin ningún preentrenamiento más allá de las demostraciones específicas de la tarea.
Sin embargo, la validación en el mundo real se limita a cuatro tareas de manipulación, haciendo que el índice de éxito del 78.3% sea un indicador débil para la transferencia de simulación a realidad. El artículo no proporciona especificaciones de hardware, huellas de memoria GPU o el costo de servicio de mantener dos DiTs residentes mientras se gestiona el estado de la memoria KV en tiempo real y la lógica de enrutamiento OVCR en el bucle de control. Las pilas de producción ahora deben manejar dos tuberías temporales independientes: planificador del mundo y ejecutor de acciones, introduciendo potenciales jitter, modos de fallo de sincronización y presión de memoria que no estaban presentes en los WAMs monolíticos. También no está claro cómo se comporta la memoria KV durante episodios a largo plazo que abarcan minutos o si la deriva de contexto se acumula sin actualizaciones periódicas del planificador.