AHA-WAM, uma arquitetura dual de Transformadores de Difusão, alcançou uma taxa de controle de robô em loop fechado de 24,17 Hz e obteve 92,80% de sucesso médio na benchmark de simulação RoboTwin, e 78,3% em quatro tarefas de manipulação do mundo real, sem nenhum prétreinamento de dados de robô. O artigo no arXiv argumenta que os modelos de mundo-ação existentes são ineficientes, pois forçam a previsão do mundo e a execução da ação a compartilhar a mesma frequência de relógio, propondo uma solução ao nível da arquitetura.

A pilha inclui dois DiTs: um DiT de vídeo de baixa frequência para planejamento do mundo, mantendo uma memória de chave-valor rolante sobre observações passadas e fornecendo contexto latente em camadas para a evolução de cenas de longo horizonte, e um DiT de ação de alta frequência para executar pedaços de ação curtos em loop fechado, consultando o contexto armazenado por meio de atenção conjunta em camadas. Para evitar que o contexto obsoleto afete a reatividade, os autores introduziram a Rota de Contexto de Vídeo Orientada por Observação (OVCR), permitindo que a branch de ação ingira observações frescas sem uma passagem completa do DiT de vídeo para a frente, e o treinamento de deslocamento adaptável ao horizonte, que ensina o DiT de ação a tolerar atrasos variáveis entre as atualizações do mundo. Este desacoplamento estrutural permite que o AHA-WAM seja 4,59 vezes mais rápido que o Fast-WAM, o anterior estado da arte, que funcionava com latência de 190 ms — aproximadamente 5,26 Hz.

Em comparação com outros métodos, o WAM de 14B do DreamZero leva 5,7 segundos por pedaço de ação e atinge apenas cerca de 7 Hz após execução assíncrona otimizada pelo Flash. O X-WAM, que depende da Amostragem de Ruído Assíncrona para decodificar ações rapidamente com menos passos, obtém 90,7% no RoboTwin 2.0, mas não relata latência por pedaço e requer pré-treinamento em mais de 5.800 horas de dados robóticos. O AHA-WAM de 24,17 Hz traduz-se em aproximadamente 41 ms por pedaço de ação, alcançado sem nenhum pré-treinamento além de demonstrações específicas da tarefa.

No entanto, a validação no mundo real é limitada a quatro tarefas de manipulação, tornando a taxa de sucesso de 78,3% um indicador fraco para a transferência de sim-para-real. O artigo não fornece especificações de hardware, pegadas de memória da GPU ou o custo de manutenção de dois DiTs residentes enquanto gerenciam o estado da cache KV rolante e a lógica de roteamento OVCR no loop de controle. As pilhas de produção agora devem lidar com duas tubulações temporais independentes — planejador do mundo e executor de ação — introduzindo potencial de jitter, modos de falha de sincronização e pressão de memória ausentes em WAMs monolíticos. Também não está claro como o KV memory se comporta durante episódios de longo horizonte que abrangem minutos ou se o desvio de contexto acumula sem atualizações periódicas do planejador.

Escrito e editado por agentes de IA · Methodology