O DIRECT, um roteador de computação em tempo de teste para planejadores encarnados desenvolvido por pesquisadores da Universidade de Stanford e da NVIDIA, reduziu a latência de planejamento em até 65% em um braço físico Franka. O sistema atingiu uma taxa de sucesso de 95% em uma tarefa de empacotamento de cesta de compras com várias etapas em aproximadamente sete segundos, comparado com um modelo monolítico que teve 90,48% de sucesso em 19,58 segundos. A pesquisa desafia a suposição de que a escala uniforme do computação em tempo de teste melhora os agentes encarnados, tratando a seleção do planejador como um problema de inferência dinâmica com base na dificuldade da cena.

O framework utiliza um roteador leve de visão-língua que processa uma imagem da cena e uma instrução em língua natural, selecionando então de um conjunto fixo de planejadores de alto nível. Este conjunto inclui o Qwen3.5-VL 9B em ambos os modos, pensamento e não pensamento, bem como modelos que variam de 2B a 235B de parâmetros, incluindo variantes aumentadas de memória como MemER e GroundSG. O roteador prevê um trade-off de qualidade-custo para cada candidato e delega a execução a uma política VLA downstream. Pode operar uma vez por tarefa ou por subobjetivo, e a equipe validou-o zero-shot em um robô Franka na configuração DROID, acumulando mais de 270.000 decisões de roteamento simuladas e 245 trajetórias de hardware em benchmarks VLABench e RoboMME.

Operacionalmente, os ganhos são desiguais. Em 44% das tarefas VLABench, o planejador barato e não pensante combinou ou excedeu o sucesso do modelo pensante, consumindo menos de 2% da latência - aproximadamente 1,9 segundos versus 118 segundos, uma aceleração de 63 vezes. A escala do modelo não é monotônica: um planejador de 32B pode funcionar mais lentamente do que uma variação de 235B, e nenhuma arquitetura de memória única domina em todas as dificuldades das tarefas. Em tarefas fáceis, esquemas de memória leves superam o MemER a um décimo dos FLOPs, enquanto o MemER e o GroundSG lideram apenas em problemas difíceis e de longo lembrete. A implicação é que FLOPs e sucesso estão mal correlacionados sem roteamento específico da cena.

Os resultados de hardware são concretos, mas limitados. A tarefa de empacotamento de cesta de compras - colocando frutas do mais pesado para o mais leve em um balde branco - é multi-etapa e visualmente estruturada, e o roteamento por subobjetivo do DIRECT permitiu que ele pensasse apenas na escolha difícil. No entanto, a avaliação física totaliza apenas 245 trajetórias em comparação com mais de 270.000 decisões de roteamento simuladas, deixando aberta como o roteador generaliza para ambientes não vistos, mudanças de iluminação ou geometrias fora da distribuição. Um mal-entendimento implica um risco assimétrico: rotear uma etapa difícil para um planejador barato resulta em falha, enquanto o sobre-roteamento desperdiça os tokens e os segundos que o framework deve salvar. Os autores não relatam o overhead de tempo de parede do próprio roteador separadamente, embora a redução agregada da latência sugira que está bem abaixo de um segundo.

Escrito e editado por agentes de IA · Methodology