InSight Permite que Robôs Aprendam Autonomamente Novas Tarefas

O framework InSight torna os modelos Vision-Language-Action (VLA) controláveis no nível de ações primitivas, permitindo que robôs adquiram autonomamente habilidades além das distribuições de dados de treinamento. Arquitetos construindo sistemas de IA incorporada podem agora dividir comportamentos aprendidos em primitivas acionáveis—um passo fundamental em direção ao aprendizado de robôs generalizável em escala.

Pesquisadores de Stanford publicaram InSight em 23 de junho, um framework que torna os modelos Vision-Language-Action (VLA) controláveis no nível de ações primitivas, e então usa essa controlabilidade para estender autonomamente o conjunto de habilidades do modelo sem demonstrações humanas. O trabalho vem do Multi-Robot Systems Lab de Mac Schwager e do grupo de Jiajun Wu, com um coautor de Princeton.

O problema central é familiar para qualquer um operando uma frota de robôs: cada nova habilidade requer uma nova rodada de coleta de demonstrações e ajuste fino. InSight reformula isso como uma falha composicional, não uma lacuna de capacidade. Varrer e colher compartilham abordagem e primitivas de abaixamento, mas diferem em um movimento lateral. Virada de bloco reutiliza apreensão-e-elevação de pegar-e-colocar e adiciona uma rotação. As habilidades já estão presentes no VLA treinado—estão emaranhadas dentro de instruções de tarefas completas e não são individualmente endereçáveis.

InSight desemaranaha-as em dois estágios. Primeiro, um pipeline automatizado segmenta demonstrações teleoperadas em primitivas rotuladas usando decomposição de planos VLM e dados de pose do atuador final—sem anotação manual. O resultado é um VLA ajustado fino e controlado em primitivas individuais via rótulos em linguagem natural como "mover garra para a tigela" ou "despejar a garrafa." Segundo, quando o robô encontra uma tarefa novel faltando uma primitiva, um volante de dados guiado por VLM é ativado: o VLM identifica a lacuna, propõe parâmetros de controle de baixo nível, executa rollouts autônomos, filtra os bem-sucedidos, e retreina o VLA com esses dados. A primitiva adquirida torna-se permanente e se compõe em tarefas de horizonte mais longo.

A distinção-chave de sistemas VLM-como-planejador é que InSight atualiza a política. A maioria das abordagens de composição em tempo de teste—SayCan, Code-as-Policies—estende o comportamento através de raciocínio em tempo de inferência sem tocar nos pesos do modelo. InSight escreve a nova habilidade de volta, tornando-a mais próxima do aprendizado contínuo do que engenharia de prompt.

A avaliação cobriu 5 tarefas em simulação e hardware real: virada de bloco, fechamento de gaveta, varredura, torção e despejo. Todas as 5 foram adquiridas sem demonstrações humanas da habilidade alvo. Uma vez que uma primitiva é aprendida, ela se compõe com as existentes—um robô que aprende "torcer" e "despejar" autonomamente pode então executar uma tarefa de despejo combinado sem coleta de dados adicional.

O artigo não relata taxas de sucesso agregadas ou números de latência no resumo e introdução; resultados completos estão no corpo do artigo. A qualidade do pipeline de segmentação de primitivas depende da precisão de decomposição do VLM—decomposição ruidosa se propaga para o ajuste fino de controlabilidade. O loop de rollout autônomo também requer que os controles propostos pelo VLM produzam pelo menos alguns sucessos para filtrar; altas taxas de falha iniciais vão travar o volante.

Para arquitetos de IA incorporada: InSight expande o conjunto de habilidades de um VLA implantado sem retornar humanos à teleoperação para cada nova tarefa. A compensação é executar um pipeline de retreinamento ao vivo no robô, adicionando sobrecarga de infraestrutura e levantando questões sobre esquecimento catastrófico de habilidades existentes—nenhuma totalmente resolvida no artigo. O código está disponível em insight-vla.github.io.

Sources

InSight makes VLAs steerable at the primitive-action level (e.g., 'move gripper to the bowl', 'lift upward', 'pour the bottle') and autonomously acquires new skills without human demonstrations of target tasks
"InSight, a framework that unlocks autonomous skill acquisition by rendering VLAs steerable at the primitive-action level (e.g., 'move gripper to the bowl', 'lift upward', 'pour the bottle')"
arxiv.org ↗
InSight's segmentation pipeline decomposes teleoperated demonstrations into labeled primitives without manual annotation using VLM plan decomposition and end-effector poses
"An automatic primitive segmentation pipeline that decomposes teleoperated demonstrations into labeled primitives without manual annotation, enabling primitive-level VLA steerability."
arxiv.org ↗
Manipulation skills are inherently compositional — sweeping and scooping share approach and lowering primitives but differ in the lateral pushing primitive; block flipping reuses grasp-and-lift but adds a rotation primitive
"sweeping and scooping share approach and lowering primitives, but differ in the lateral pushing primitive. Similarly, flipping a block reuses the same grasp-and-lift sequence from pick-and-place but adds a rotation primitive not present in those demonstrations."
arxiv.org ↗
InSight's VLM-guided data flywheel identifies missing primitives, generates autonomous rollouts, and retrains the VLA — updating policy weights rather than just reasoning at inference time
"We propose a different role for the VLM: not only as a test-time planner over existing skills, but as an active agent for identifying missing primitives, generating successful robot rollouts, and adding those rollouts back to the VLA by retraining to extend its skill capabilities."
arxiv.org ↗
InSight was evaluated across 5 tasks — block flipping, drawer closing, sweeping, twisting, and pouring — without any human demonstrations of the target skills
"We evaluate InSight across simulation and real-world manipulation tasks, including block flipping, drawer closing, sweeping, twisting, and pouring, without any human demonstrations of these target skills."
arxiv.org ↗
Once acquired, new primitives can be composed to execute novel long-horizon tasks without additional human demonstrations
"Once learned, these primitives can be composed to execute novel, long-horizon tasks without additional human demonstrations."
arxiv.org ↗
The work is from Stanford's Multi-Robot Systems Lab (Mac Schwager) and Jiajun Wu's group, with a co-author from Princeton
"Maggie Wang, Lars Osterberg, Stephen Tian, Ola Shorinwa, Jiajun Wu, Mac Schwager — Stanford University, Princeton University"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

InSight Permite que Robôs Aprendam Autonomamente Novas Tarefas

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.