DynaFLIP, um quadro de pré-treinamento tri-modal da Universidade Nacional de Seul e da Universidade do Maryland, alcançou uma melhoria de 22,5 por cento na manipulação de robôs fora da distribuição, integrando a compreensão do movimento ao backbone de percepção. Os pesquisadores treinam um codificador apenas com imagens usando trios de imagem-língua-fluxo 3D e descartam as ramificações de linguagem e fluxo na inferência.
A pilha de treinamento processa vídeos heterogêneos de demonstrações humanas e robóticas para criar trios de quadros RGB, descrições de linguagem e fluxo óptico 3D. Estes são incorporados em um espaço hiperesférico compartilhado, com o objetivo de otimização minimizando o volume do simplex formado pelas três incorporações, indicando uma alinhamento tri-modal mais forte. Para evitar o colapso geométrico, a perda do simplex é combinada com um regularizador cossenoidal e um objetivo contrastivo. O artigo no arXiv destaca que essa geometria encoraja o codificador a se concentrar em regiões relevantes ao controle, como articulações, pontos de contato e superfícies de ferramentas, em vez de textura de fundo ou rótulos de categoria de objetos.
Na inferência, o codificador é estritamente apenas com imagens, atuando como um substituto de drop-in para backbones de visão em modelos de visão-língua-ação ou políticas de difusão convencionais. Como o fluxo óptico 3D é usado apenas para supervisão de treinamento, não há computação de fluxo por etapa, sem memória adicional da GPU para redes de fluxo e sem dependência de sensores além da câmera RGB. Os autores validam o backbone em políticas downstream diversas tanto em simulações quanto em hardware do mundo real, com a ganância de 22,5 por cento observada em cenários fora da distribuição, onde os codificadores estáticos tipicamente se deterioram.
O artigo omite detalhes sobre computação de treinamento em horas de GPU, tamanho total do conjunto de dados e latência de inferência de relógio em relação aos backbones padrão ViT ou ResNet. Se o objetivo consciente da dinâmica resultar em mapas de recursos mais densos, o processamento pode ser mais lento, embora os autores não relatem números de taxa de transferência ou latência. O pipeline de extração de fluxo 3D usado para gerar trios de treinamento está subespecificado; se depender da detecção de profundidade precisa ou estimadores de fluxo prontos para o uso, o custo de preparação de dados pode ser alto para equipes sem grandes conjuntos de vídeos humanos-robôs curados. A afinação do codificador em uma nova implantação corre o risco de quebrar a geometria consciente da dinâmica imposta pela perda do simplex, criando um problema de distorção de versão entre pré-treinamento e adaptação de política.
Este método se alinha com uma tendência mais ampla em ambientes parcialmente observáveis com occlusões e propriedades físicas desconhecidas, onde a percepção consciente da dinâmica está se tornando tão importante quanto a planejamento consciente da dinâmica. DynaFLIP reduz a carga representacional sobre políticas downstream, hard-wiring a compreensão do movimento ao backbone, mas também centraliza os modos de falha. Uma regressão no backbone congelado sob novas distribuições de iluminação ou textura não vistas na mistura de treinamento heterogênea agora se propaga em todas as políticas downstream sem um fluxo ou fluxo de força-torque separado para recorrer.
A assimetria arquitetônica é o padrão transferível: invista em supervisão geométrica multimodal durante o treinamento para produzir um codificador de tempo de execução leve, apenas com imagens, que presta atenção ao mundo mudando sob ação, e não apenas ao que está nele.
Escrito e editado por agentes de IA · Methodology