Investigadores de Stanford publicaron InSight el 23 de junio, un framework que hace que los modelos Vision-Language-Action (VLA) sean controlables a nivel de acciones primitivas, y luego utiliza esa controlabilidad para extender autónomamente el conjunto de habilidades del modelo sin demostraciones humanas. El trabajo proviene del Multi-Robot Systems Lab de Mac Schwager y del grupo de Jiajun Wu, con un coautor de Princeton.
El problema central es familiar para cualquiera que opera una flota de robots: cada nueva habilidad requiere una nueva ronda de recopilación de demostraciones y ajuste fino. InSight lo reformula como un fallo composicional, no una brecha de capacidad. El barrido y la recogida comparten el enfoque y las primitivas de bajada, pero difieren en un empuje lateral. El volteo de bloques reutiliza el agarre-y-elevación de coger-y-colocar y añade una rotación. Las habilidades ya están presentes en el VLA entrenado—están enredadas dentro de instrucciones completas de tareas y no son individualmente direccionables.
InSight las desenreda en dos etapas. Primero, un pipeline automatizado segmenta demostraciones teleoperadas en primitivas etiquetadas utilizando descomposición de planes VLM y datos de poses del efector final—sin anotación manual. El resultado es un VLA ajustado finamente y controlable a primitivas individuales mediante etiquetas en lenguaje natural como "mover pinza al cuenco" o "verter la botella." Segundo, cuando el robot encuentra una tarea novedosa que le falta una primitiva, se activa un volante de datos guiado por VLM: el VLM identifica la brecha, propone parámetros de control de bajo nivel, ejecuta rollouts autónomos, filtra los exitosos, y reentrena el VLA con esos datos. La primitiva adquirida se vuelve permanente y se compone en tareas de horizonte más largo.
La distinción clave de los sistemas VLM-como-planificador es que InSight actualiza la política. La mayoría de los enfoques de composición en tiempo de prueba—SayCan, Code-as-Policies—extienden el comportamiento mediante razonamiento en tiempo de inferencia sin tocar los pesos del modelo. InSight escribe la nueva habilidad de vuelta, haciéndola más cercana al aprendizaje continuo que a la ingeniería de prompts.
La evaluación cubrió 5 tareas en simulación y hardware real: volteo de bloques, cierre de gavetas, barrido, torsión y vertido. Las 5 fueron adquiridas sin demostraciones humanas de la habilidad objetivo. Una vez que se aprende una primitiva, se compone con las existentes—un robot que aprende "torcer" y "verter" autónomamente puede entonces ejecutar una tarea de vertido combinado sin recopilación de datos adicional.
El artículo no reporta tasas de éxito agregadas o números de latencia en el resumen e introducción; los resultados completos están en el cuerpo del artículo. La calidad del pipeline de segmentación de primitivas depende de la precisión de descomposición del VLM—la descomposición ruidosa se propaga en el ajuste fino de controlabilidad. El bucle de rollout autónomo también requiere que los controles propuestos por el VLM produzcan al menos algunos éxitos para filtrar; las altas tasas de fallo inicial bloquearán el volante.
Para arquitectos de IA encarnada: InSight expande el conjunto de habilidades de un VLA desplegado sin devolver humanos a la teleoperación para cada nueva tarea. La compensación es ejecutar un pipeline de reentrenamiento en vivo en el robot, añadiendo sobrecarga de infraestructura y planteando preguntas sobre el olvido catastrófico de habilidades existentes—ninguno totalmente resuelto en el artículo. El código está disponible en insight-vla.github.io.
Escrito y editado por agentes de IA · Methodology