DIRECT reduce la latencia de IA encarnada en un 65% con enrutamiento dinámico de planificador

DIRECT, un enrutador de cómputo en tiempo de prueba para planificadores encarnados desarrollado por investigadores de la Universidad de Stanford y NVIDIA, ha reducido la latencia de planificación en hasta un 65% en un brazo físico Franka. El sistema logró un índice de éxito del 95% en una tarea de empaquetado de bolsa de comestibles en varios pasos en aproximadamente siete segundos, en comparación con un 90,48% de éxito de un modelo monolítico en 19,58 segundos. La investigación cuestiona la suposición de que escalar el cómputo en tiempo de prueba de manera uniforme mejora a los agentes encarnados, en lugar de tratar la selección del planificador como un problema de inferencia dinámica basado en la dificultad de la escena.

El marco utiliza un enrutador ligero de visión-lengua que procesa una imagen de la escena e instrucción de lenguaje natural, y luego selecciona de un grupo fijo de planificadores de alto nivel. Este grupo incluye Qwen3.5-VL 9B en ambos modos de pensamiento y sin pensamiento, así como modelos que varían de 2B a 235B parámetros, incluyendo variantes mejoradas con memoria como MemER y GroundSG. El enrutador predice un equilibrio calidad-costo para cada candidato y delega la ejecución a una política VLA downstream. Puede operar una vez por tarea o por subobjetivo, y el equipo lo validó sin entrenamiento en un robot Franka en la configuración DROID, acumulando más de 270,000 decisiones de enrutamiento simuladas y 245 trayectorias de hardware a través de los benchmarks VLABench y RoboMME.

Operativamente, los beneficios son desiguales. En el 44% de las tareas VLABench, el planificador barato sin pensamiento coincidió o superó el éxito del modelo de pensamiento mientras consumía menos del 2% de la latencia: aproximadamente 1,9 segundos frente a 118 segundos, un acelerado de 63 veces. La escalación del modelo no es monotónica: un planificador de 32B puede funcionar más lento que una variante de 235B, y ninguna sola arquitectura de memoria domina en todas las dificultades de las tareas. En tareas fáciles, esquemas de memoria ligeros superan a MemER a una décima parte de los FLOPs, mientras que MemER y GroundSG lideran solo en problemas difíciles y de larga memoria. La implicación es que los FLOPs y el éxito están mal correlacionados sin enrutamiento específico de la escena.

Los resultados de hardware son concretos pero limitados. La tarea de empaquetado de la bolsa de comestibles, que consiste en colocar frutas de la más pesada a la más ligera en un cubo blanco, es multi-pasos y estructurada visualmente, y el enrutamiento por subobjetivo de DIRECT le permitió pensar solo en la selección difícil. Sin embargo, la evaluación física totaliza solo 245 trayectorias frente a más de 270,000 decisiones de enrutamiento simuladas, lo que deja abierta la forma en que el enrutador se generaliza a entornos no vistos, cambios de iluminación o geometrías fuera de la distribución. Una mal predicción conlleva un riesgo asimétrico: enrutar un paso difícil a un planificador barato produce fracaso, mientras que sobre-enrutar desperdicia los tokens y segundos que el marco está destinado a ahorrar. Los autores no informan por separado el overhead de tiempo de reloj propio del enrutador, aunque la reducción de latencia agregada sugiere que está bien por debajo de un segundo.

Sources

DIRECT reduces planning latency by up to 65% on a physical Franka arm while matching or exceeding a stronger model's success rate
"our router matches or exceeds a stronger model's success rate at up to 65% lower average latency"
arxiv.org ↗
DIRECT achieves 95% success on multi-step grocery-bagging at approximately 7 seconds; Thinking planner achieves 90% at ~20 seconds
"On multi-step grocery bagging it reaches 95% success at 7 seconds—versus the Thinking planner's 90% at 20 seconds."
jadee-dao.github.io ↗
On 44% of VLABench tasks, the non-thinking model matches or beats the Thinking model at ~1.9s vs 118s (63× faster)
"On 44% of VLABench tasks, the non-thinking model matches or beats Thinking at <2% of the latency — about 63× faster (1.9 s vs 118 s)."
jadee-dao.github.io ↗
Model size scaling 2B→235B is non-monotonic; a 32B planner can run slower than 235B
"Scaling 2B→235B is non-monotonic — a 32B planner can even run slower than 235B."
jadee-dao.github.io ↗
Lightweight memory schemes beat MemER at ~10× fewer FLOPs on easy tasks; MemER and GroundSG lead on hard long-recall tasks
"on easy tasks a lightweight scheme beats MemER at ~10× fewer FLOPs, while MemER and GroundSG lead on hard, long-recall tasks"
jadee-dao.github.io ↗
DIRECT validated across 270,000+ simulated routing decisions and 245 hardware trajectories on Franka DROID
"Across 270,000+ simulated routing decisions and 245 hardware trajectories, spanning all three test-time-compute axes."
jadee-dao.github.io ↗
Qwen3.5-VL 9B (No Thinking) achieves 47.62% success at 2.19s; (Thinking) achieves 90.48% success at 19.58s on grocery-bagging
"Qwen3.5-VL 9B (No Thinking) 47.62 2.19 | Qwen3.5-VL 9B (Thinking) 90.48 19.58"
jadee-dao.github.io ↗
Paper authors affiliated with Stanford University (affiliation 1) and NVIDIA (affiliation 3); Marco Pavone carries both
"1Stanford University, 2University of Waterloo, 3NVIDIA"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

DIRECT reduce la latencia de IA encarnada en un 65% con enrutamiento dinámico de planificador

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.