InSight Permite que los Robots Aprendan Autónomamente Nuevas Tareas

El framework InSight hace que los modelos Vision-Language-Action (VLA) sean controlables a nivel de acciones primitivas, permitiendo que los robots adquieran autónomamente habilidades más allá de las distribuciones de datos de entrenamiento. Los arquitectos que construyen sistemas de IA encarnada pueden ahora dividir comportamientos aprendidos en primitivas accionables—un paso clave hacia el aprendizaje de robots generalizable a escala.

Investigadores de Stanford publicaron InSight el 23 de junio, un framework que hace que los modelos Vision-Language-Action (VLA) sean controlables a nivel de acciones primitivas, y luego utiliza esa controlabilidad para extender autónomamente el conjunto de habilidades del modelo sin demostraciones humanas. El trabajo proviene del Multi-Robot Systems Lab de Mac Schwager y del grupo de Jiajun Wu, con un coautor de Princeton.

El problema central es familiar para cualquiera que opera una flota de robots: cada nueva habilidad requiere una nueva ronda de recopilación de demostraciones y ajuste fino. InSight lo reformula como un fallo composicional, no una brecha de capacidad. El barrido y la recogida comparten el enfoque y las primitivas de bajada, pero difieren en un empuje lateral. El volteo de bloques reutiliza el agarre-y-elevación de coger-y-colocar y añade una rotación. Las habilidades ya están presentes en el VLA entrenado—están enredadas dentro de instrucciones completas de tareas y no son individualmente direccionables.

InSight las desenreda en dos etapas. Primero, un pipeline automatizado segmenta demostraciones teleoperadas en primitivas etiquetadas utilizando descomposición de planes VLM y datos de poses del efector final—sin anotación manual. El resultado es un VLA ajustado finamente y controlable a primitivas individuales mediante etiquetas en lenguaje natural como "mover pinza al cuenco" o "verter la botella." Segundo, cuando el robot encuentra una tarea novedosa que le falta una primitiva, se activa un volante de datos guiado por VLM: el VLM identifica la brecha, propone parámetros de control de bajo nivel, ejecuta rollouts autónomos, filtra los exitosos, y reentrena el VLA con esos datos. La primitiva adquirida se vuelve permanente y se compone en tareas de horizonte más largo.

La distinción clave de los sistemas VLM-como-planificador es que InSight actualiza la política. La mayoría de los enfoques de composición en tiempo de prueba—SayCan, Code-as-Policies—extienden el comportamiento mediante razonamiento en tiempo de inferencia sin tocar los pesos del modelo. InSight escribe la nueva habilidad de vuelta, haciéndola más cercana al aprendizaje continuo que a la ingeniería de prompts.

La evaluación cubrió 5 tareas en simulación y hardware real: volteo de bloques, cierre de gavetas, barrido, torsión y vertido. Las 5 fueron adquiridas sin demostraciones humanas de la habilidad objetivo. Una vez que se aprende una primitiva, se compone con las existentes—un robot que aprende "torcer" y "verter" autónomamente puede entonces ejecutar una tarea de vertido combinado sin recopilación de datos adicional.

El artículo no reporta tasas de éxito agregadas o números de latencia en el resumen e introducción; los resultados completos están en el cuerpo del artículo. La calidad del pipeline de segmentación de primitivas depende de la precisión de descomposición del VLM—la descomposición ruidosa se propaga en el ajuste fino de controlabilidad. El bucle de rollout autónomo también requiere que los controles propuestos por el VLM produzcan al menos algunos éxitos para filtrar; las altas tasas de fallo inicial bloquearán el volante.

Para arquitectos de IA encarnada: InSight expande el conjunto de habilidades de un VLA desplegado sin devolver humanos a la teleoperación para cada nueva tarea. La compensación es ejecutar un pipeline de reentrenamiento en vivo en el robot, añadiendo sobrecarga de infraestructura y planteando preguntas sobre el olvido catastrófico de habilidades existentes—ninguno totalmente resuelto en el artículo. El código está disponible en insight-vla.github.io.

Sources

InSight makes VLAs steerable at the primitive-action level (e.g., 'move gripper to the bowl', 'lift upward', 'pour the bottle') and autonomously acquires new skills without human demonstrations of target tasks
"InSight, a framework that unlocks autonomous skill acquisition by rendering VLAs steerable at the primitive-action level (e.g., 'move gripper to the bowl', 'lift upward', 'pour the bottle')"
arxiv.org ↗
InSight's segmentation pipeline decomposes teleoperated demonstrations into labeled primitives without manual annotation using VLM plan decomposition and end-effector poses
"An automatic primitive segmentation pipeline that decomposes teleoperated demonstrations into labeled primitives without manual annotation, enabling primitive-level VLA steerability."
arxiv.org ↗
Manipulation skills are inherently compositional — sweeping and scooping share approach and lowering primitives but differ in the lateral pushing primitive; block flipping reuses grasp-and-lift but adds a rotation primitive
"sweeping and scooping share approach and lowering primitives, but differ in the lateral pushing primitive. Similarly, flipping a block reuses the same grasp-and-lift sequence from pick-and-place but adds a rotation primitive not present in those demonstrations."
arxiv.org ↗
InSight's VLM-guided data flywheel identifies missing primitives, generates autonomous rollouts, and retrains the VLA — updating policy weights rather than just reasoning at inference time
"We propose a different role for the VLM: not only as a test-time planner over existing skills, but as an active agent for identifying missing primitives, generating successful robot rollouts, and adding those rollouts back to the VLA by retraining to extend its skill capabilities."
arxiv.org ↗
InSight was evaluated across 5 tasks — block flipping, drawer closing, sweeping, twisting, and pouring — without any human demonstrations of the target skills
"We evaluate InSight across simulation and real-world manipulation tasks, including block flipping, drawer closing, sweeping, twisting, and pouring, without any human demonstrations of these target skills."
arxiv.org ↗
Once acquired, new primitives can be composed to execute novel long-horizon tasks without additional human demonstrations
"Once learned, these primitives can be composed to execute novel, long-horizon tasks without additional human demonstrations."
arxiv.org ↗
The work is from Stanford's Multi-Robot Systems Lab (Mac Schwager) and Jiajun Wu's group, with a co-author from Princeton
"Maggie Wang, Lars Osterberg, Stephen Tian, Ola Shorinwa, Jiajun Wu, Mac Schwager — Stanford University, Princeton University"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

InSight Permite que los Robots Aprendan Autónomamente Nuevas Tareas

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.