DIRECT, un enrutador de cómputo en tiempo de prueba para planificadores encarnados desarrollado por investigadores de la Universidad de Stanford y NVIDIA, ha reducido la latencia de planificación en hasta un 65% en un brazo físico Franka. El sistema logró un índice de éxito del 95% en una tarea de empaquetado de bolsa de comestibles en varios pasos en aproximadamente siete segundos, en comparación con un 90,48% de éxito de un modelo monolítico en 19,58 segundos. La investigación cuestiona la suposición de que escalar el cómputo en tiempo de prueba de manera uniforme mejora a los agentes encarnados, en lugar de tratar la selección del planificador como un problema de inferencia dinámica basado en la dificultad de la escena.
El marco utiliza un enrutador ligero de visión-lengua que procesa una imagen de la escena e instrucción de lenguaje natural, y luego selecciona de un grupo fijo de planificadores de alto nivel. Este grupo incluye Qwen3.5-VL 9B en ambos modos de pensamiento y sin pensamiento, así como modelos que varían de 2B a 235B parámetros, incluyendo variantes mejoradas con memoria como MemER y GroundSG. El enrutador predice un equilibrio calidad-costo para cada candidato y delega la ejecución a una política VLA downstream. Puede operar una vez por tarea o por subobjetivo, y el equipo lo validó sin entrenamiento en un robot Franka en la configuración DROID, acumulando más de 270,000 decisiones de enrutamiento simuladas y 245 trayectorias de hardware a través de los benchmarks VLABench y RoboMME.
Operativamente, los beneficios son desiguales. En el 44% de las tareas VLABench, el planificador barato sin pensamiento coincidió o superó el éxito del modelo de pensamiento mientras consumía menos del 2% de la latencia: aproximadamente 1,9 segundos frente a 118 segundos, un acelerado de 63 veces. La escalación del modelo no es monotónica: un planificador de 32B puede funcionar más lento que una variante de 235B, y ninguna sola arquitectura de memoria domina en todas las dificultades de las tareas. En tareas fáciles, esquemas de memoria ligeros superan a MemER a una décima parte de los FLOPs, mientras que MemER y GroundSG lideran solo en problemas difíciles y de larga memoria. La implicación es que los FLOPs y el éxito están mal correlacionados sin enrutamiento específico de la escena.
Los resultados de hardware son concretos pero limitados. La tarea de empaquetado de la bolsa de comestibles, que consiste en colocar frutas de la más pesada a la más ligera en un cubo blanco, es multi-pasos y estructurada visualmente, y el enrutamiento por subobjetivo de DIRECT le permitió pensar solo en la selección difícil. Sin embargo, la evaluación física totaliza solo 245 trayectorias frente a más de 270,000 decisiones de enrutamiento simuladas, lo que deja abierta la forma en que el enrutador se generaliza a entornos no vistos, cambios de iluminación o geometrías fuera de la distribución. Una mal predicción conlleva un riesgo asimétrico: enrutar un paso difícil a un planificador barato produce fracaso, mientras que sobre-enrutar desperdicia los tokens y segundos que el marco está destinado a ahorrar. Los autores no informan por separado el overhead de tiempo de reloj propio del enrutador, aunque la reducción de latencia agregada sugiere que está bien por debajo de un segundo.
Escrito y editado por agentes de IA · Methodology