DIRECT reduz a latência da IA encarnada em 65% com roteamento dinâmico do planejador

O DIRECT, um roteador de computação em tempo de teste para planejadores encarnados desenvolvido por pesquisadores da Universidade de Stanford e da NVIDIA, reduziu a latência de planejamento em até 65% em um braço físico Franka. O sistema atingiu uma taxa de sucesso de 95% em uma tarefa de empacotamento de cesta de compras com várias etapas em aproximadamente sete segundos, comparado com um modelo monolítico que teve 90,48% de sucesso em 19,58 segundos. A pesquisa desafia a suposição de que a escala uniforme do computação em tempo de teste melhora os agentes encarnados, tratando a seleção do planejador como um problema de inferência dinâmica com base na dificuldade da cena.

O framework utiliza um roteador leve de visão-língua que processa uma imagem da cena e uma instrução em língua natural, selecionando então de um conjunto fixo de planejadores de alto nível. Este conjunto inclui o Qwen3.5-VL 9B em ambos os modos, pensamento e não pensamento, bem como modelos que variam de 2B a 235B de parâmetros, incluindo variantes aumentadas de memória como MemER e GroundSG. O roteador prevê um trade-off de qualidade-custo para cada candidato e delega a execução a uma política VLA downstream. Pode operar uma vez por tarefa ou por subobjetivo, e a equipe validou-o zero-shot em um robô Franka na configuração DROID, acumulando mais de 270.000 decisões de roteamento simuladas e 245 trajetórias de hardware em benchmarks VLABench e RoboMME.

Operacionalmente, os ganhos são desiguais. Em 44% das tarefas VLABench, o planejador barato e não pensante combinou ou excedeu o sucesso do modelo pensante, consumindo menos de 2% da latência - aproximadamente 1,9 segundos versus 118 segundos, uma aceleração de 63 vezes. A escala do modelo não é monotônica: um planejador de 32B pode funcionar mais lentamente do que uma variação de 235B, e nenhuma arquitetura de memória única domina em todas as dificuldades das tarefas. Em tarefas fáceis, esquemas de memória leves superam o MemER a um décimo dos FLOPs, enquanto o MemER e o GroundSG lideram apenas em problemas difíceis e de longo lembrete. A implicação é que FLOPs e sucesso estão mal correlacionados sem roteamento específico da cena.

Os resultados de hardware são concretos, mas limitados. A tarefa de empacotamento de cesta de compras - colocando frutas do mais pesado para o mais leve em um balde branco - é multi-etapa e visualmente estruturada, e o roteamento por subobjetivo do DIRECT permitiu que ele pensasse apenas na escolha difícil. No entanto, a avaliação física totaliza apenas 245 trajetórias em comparação com mais de 270.000 decisões de roteamento simuladas, deixando aberta como o roteador generaliza para ambientes não vistos, mudanças de iluminação ou geometrias fora da distribuição. Um mal-entendimento implica um risco assimétrico: rotear uma etapa difícil para um planejador barato resulta em falha, enquanto o sobre-roteamento desperdiça os tokens e os segundos que o framework deve salvar. Os autores não relatam o overhead de tempo de parede do próprio roteador separadamente, embora a redução agregada da latência sugira que está bem abaixo de um segundo.

Sources

DIRECT reduces planning latency by up to 65% on a physical Franka arm while matching or exceeding a stronger model's success rate
"our router matches or exceeds a stronger model's success rate at up to 65% lower average latency"
arxiv.org ↗
DIRECT achieves 95% success on multi-step grocery-bagging at approximately 7 seconds; Thinking planner achieves 90% at ~20 seconds
"On multi-step grocery bagging it reaches 95% success at 7 seconds—versus the Thinking planner's 90% at 20 seconds."
jadee-dao.github.io ↗
On 44% of VLABench tasks, the non-thinking model matches or beats the Thinking model at ~1.9s vs 118s (63× faster)
"On 44% of VLABench tasks, the non-thinking model matches or beats Thinking at <2% of the latency — about 63× faster (1.9 s vs 118 s)."
jadee-dao.github.io ↗
Model size scaling 2B→235B is non-monotonic; a 32B planner can run slower than 235B
"Scaling 2B→235B is non-monotonic — a 32B planner can even run slower than 235B."
jadee-dao.github.io ↗
Lightweight memory schemes beat MemER at ~10× fewer FLOPs on easy tasks; MemER and GroundSG lead on hard long-recall tasks
"on easy tasks a lightweight scheme beats MemER at ~10× fewer FLOPs, while MemER and GroundSG lead on hard, long-recall tasks"
jadee-dao.github.io ↗
DIRECT validated across 270,000+ simulated routing decisions and 245 hardware trajectories on Franka DROID
"Across 270,000+ simulated routing decisions and 245 hardware trajectories, spanning all three test-time-compute axes."
jadee-dao.github.io ↗
Qwen3.5-VL 9B (No Thinking) achieves 47.62% success at 2.19s; (Thinking) achieves 90.48% success at 19.58s on grocery-bagging
"Qwen3.5-VL 9B (No Thinking) 47.62 2.19 | Qwen3.5-VL 9B (Thinking) 90.48 19.58"
jadee-dao.github.io ↗
Paper authors affiliated with Stanford University (affiliation 1) and NVIDIA (affiliation 3); Marco Pavone carries both
"1Stanford University, 2University of Waterloo, 3NVIDIA"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

DIRECT reduz a latência da IA encarnada em 65% com roteamento dinâmico do planejador

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.