AHA-WAM alcança controle de robô 4.59 vezes mais rápido desacoplando Transformadores de Difusão

AHA-WAM, uma arquitetura dual de Transformadores de Difusão, alcançou uma taxa de controle de robô em loop fechado de 24,17 Hz e obteve 92,80% de sucesso médio na benchmark de simulação RoboTwin, e 78,3% em quatro tarefas de manipulação do mundo real, sem nenhum prétreinamento de dados de robô. O artigo no arXiv argumenta que os modelos de mundo-ação existentes são ineficientes, pois forçam a previsão do mundo e a execução da ação a compartilhar a mesma frequência de relógio, propondo uma solução ao nível da arquitetura.

A pilha inclui dois DiTs: um DiT de vídeo de baixa frequência para planejamento do mundo, mantendo uma memória de chave-valor rolante sobre observações passadas e fornecendo contexto latente em camadas para a evolução de cenas de longo horizonte, e um DiT de ação de alta frequência para executar pedaços de ação curtos em loop fechado, consultando o contexto armazenado por meio de atenção conjunta em camadas. Para evitar que o contexto obsoleto afete a reatividade, os autores introduziram a Rota de Contexto de Vídeo Orientada por Observação (OVCR), permitindo que a branch de ação ingira observações frescas sem uma passagem completa do DiT de vídeo para a frente, e o treinamento de deslocamento adaptável ao horizonte, que ensina o DiT de ação a tolerar atrasos variáveis entre as atualizações do mundo. Este desacoplamento estrutural permite que o AHA-WAM seja 4,59 vezes mais rápido que o Fast-WAM, o anterior estado da arte, que funcionava com latência de 190 ms — aproximadamente 5,26 Hz.

Em comparação com outros métodos, o WAM de 14B do DreamZero leva 5,7 segundos por pedaço de ação e atinge apenas cerca de 7 Hz após execução assíncrona otimizada pelo Flash. O X-WAM, que depende da Amostragem de Ruído Assíncrona para decodificar ações rapidamente com menos passos, obtém 90,7% no RoboTwin 2.0, mas não relata latência por pedaço e requer pré-treinamento em mais de 5.800 horas de dados robóticos. O AHA-WAM de 24,17 Hz traduz-se em aproximadamente 41 ms por pedaço de ação, alcançado sem nenhum pré-treinamento além de demonstrações específicas da tarefa.

No entanto, a validação no mundo real é limitada a quatro tarefas de manipulação, tornando a taxa de sucesso de 78,3% um indicador fraco para a transferência de sim-para-real. O artigo não fornece especificações de hardware, pegadas de memória da GPU ou o custo de manutenção de dois DiTs residentes enquanto gerenciam o estado da cache KV rolante e a lógica de roteamento OVCR no loop de controle. As pilhas de produção agora devem lidar com duas tubulações temporais independentes — planejador do mundo e executor de ação — introduzindo potencial de jitter, modos de falha de sincronização e pressão de memória ausentes em WAMs monolíticos. Também não está claro como o KV memory se comporta durante episódios de longo horizonte que abrangem minutos ou se o desvio de contexto acumula sem atualizações periódicas do planejador.

Sources

AHA-WAM achieves 92.80% average success on RoboTwin, 78.3% across 4 real-world tasks, 24.17 Hz closed-loop control, 4.59× speedup over Fast-WAM, without robot-data pretraining
"AHA-WAM achieves state-of-the-art performance without any robot-data pretraining, attaining 92.80% average success on RoboTwin and 78.3% success across 4 real-world tasks, while reaching 24.17 Hz closed-loop control with a 4.59x speedup over Fast-WAM."
arxiv.org ↗
AHA-WAM uses a dual DiT: a low-frequency video DiT maintains rolling KV memory; a high-frequency action DiT queries it via layerwise joint attention
"AHA-WAM instantiates the video DiT as a low-frequency world planner that maintains rolling key-value memory over past observations and exposes reusable layerwise latent context encoding long-horizon scene evolution, while a high-frequency action DiT executes short action chunks in closed loop by querying this context through layerwise joint attention."
arxiv.org ↗
OVCR and horizon-adaptive offset training let the action DiT ingest fresh observations without re-running the video DiT
"we introduce horizon-adaptive offset training and Observation-Guided Video-Context Routing (OVCR), which together let the action expert exploit long-horizon world context while remaining responsive to real-time execution state without rerunning the video DiT."
arxiv.org ↗
Fast-WAM runs at 190 ms latency (derived: ~5.26 Hz)
"Fast-WAM achieves competitive results with state-of-the-art methods both on simulation benchmarks (LIBERO and RoboTwin) and real-world tasks, without embodied pretraining. It runs in real time with 190 ms latency, over 4× faster than existing imagine-then-execute WAMs."
arxiv.org ↗
Fast-WAM's value of video prediction lies in training-time world representations, not test-time future imagination
"These results suggest that the main value of video prediction in WAMs may lie in improving world representations during training rather than generating future observations at test time."
arxiv.org ↗
X-WAM scores 90.7% on RoboTwin 2.0 and requires pretraining on over 5,800 hours of robotic data
"Pretrained on over 5,800 hours of robotic data, X-WAM achieves 79.2% and 90.7% average success rate on RoboCasa and RoboTwin 2.0 benchmarks"
arxiv.org ↗
DreamZero's 14B WAM requires 5.7 seconds per action chunk in naive implementation
"A naive implementation of DreamZero on a single GPU requires approximately 5.7 seconds per action chunk due to three bottlenecks: (1) iterative denoising across 16 diffusion steps required for smooth actions, (2) the computational cost of a 14B parameter DiT backbone, and (3) sequential execution that blocks robot motion during inference."
arxiv.org ↗
DreamZero achieves ~7 Hz with Flash-optimized asynchronous execution
"these techniques achieve a 38× inference speedup without degrading performance, enabling DreamZero to generate action chunks at approximately 7Hz for smooth, real-time robotic control"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

AHA-WAM alcança controle de robô 4.59 vezes mais rápido desacoplando Transformadores de Difusão

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.