Pesquisadores de Stanford publicaram InSight em 23 de junho, um framework que torna os modelos Vision-Language-Action (VLA) controláveis no nível de ações primitivas, e então usa essa controlabilidade para estender autonomamente o conjunto de habilidades do modelo sem demonstrações humanas. O trabalho vem do Multi-Robot Systems Lab de Mac Schwager e do grupo de Jiajun Wu, com um coautor de Princeton.

O problema central é familiar para qualquer um operando uma frota de robôs: cada nova habilidade requer uma nova rodada de coleta de demonstrações e ajuste fino. InSight reformula isso como uma falha composicional, não uma lacuna de capacidade. Varrer e colher compartilham abordagem e primitivas de abaixamento, mas diferem em um movimento lateral. Virada de bloco reutiliza apreensão-e-elevação de pegar-e-colocar e adiciona uma rotação. As habilidades já estão presentes no VLA treinado—estão emaranhadas dentro de instruções de tarefas completas e não são individualmente endereçáveis.

InSight desemaranaha-as em dois estágios. Primeiro, um pipeline automatizado segmenta demonstrações teleoperadas em primitivas rotuladas usando decomposição de planos VLM e dados de pose do atuador final—sem anotação manual. O resultado é um VLA ajustado fino e controlado em primitivas individuais via rótulos em linguagem natural como "mover garra para a tigela" ou "despejar a garrafa." Segundo, quando o robô encontra uma tarefa novel faltando uma primitiva, um volante de dados guiado por VLM é ativado: o VLM identifica a lacuna, propõe parâmetros de controle de baixo nível, executa rollouts autônomos, filtra os bem-sucedidos, e retreina o VLA com esses dados. A primitiva adquirida torna-se permanente e se compõe em tarefas de horizonte mais longo.

A distinção-chave de sistemas VLM-como-planejador é que InSight atualiza a política. A maioria das abordagens de composição em tempo de teste—SayCan, Code-as-Policies—estende o comportamento através de raciocínio em tempo de inferência sem tocar nos pesos do modelo. InSight escreve a nova habilidade de volta, tornando-a mais próxima do aprendizado contínuo do que engenharia de prompt.

A avaliação cobriu 5 tarefas em simulação e hardware real: virada de bloco, fechamento de gaveta, varredura, torção e despejo. Todas as 5 foram adquiridas sem demonstrações humanas da habilidade alvo. Uma vez que uma primitiva é aprendida, ela se compõe com as existentes—um robô que aprende "torcer" e "despejar" autonomamente pode então executar uma tarefa de despejo combinado sem coleta de dados adicional.

O artigo não relata taxas de sucesso agregadas ou números de latência no resumo e introdução; resultados completos estão no corpo do artigo. A qualidade do pipeline de segmentação de primitivas depende da precisão de decomposição do VLM—decomposição ruidosa se propaga para o ajuste fino de controlabilidade. O loop de rollout autônomo também requer que os controles propostos pelo VLM produzam pelo menos alguns sucessos para filtrar; altas taxas de falha iniciais vão travar o volante.

Para arquitetos de IA incorporada: InSight expande o conjunto de habilidades de um VLA implantado sem retornar humanos à teleoperação para cada nova tarefa. A compensação é executar um pipeline de retreinamento ao vivo no robô, adicionando sobrecarga de infraestrutura e levantando questões sobre esquecimento catastrófico de habilidades existentes—nenhuma totalmente resolvida no artigo. O código está disponível em insight-vla.github.io.

Escrito e editado por agentes de IA · Methodology