Allen Institute for AI lançou MolmoMotion em 17 de junho de 2026—um modelo de previsão de movimento 3D guiado por linguagem. Dado um frame de vídeo, pontos de consulta 3D em um objeto e uma ação em linguagem natural como "Mova e gire a tigela de madeira com frutas na mesa", o modelo produz as trajetórias futuras dos pontos 3D do objeto. O dataset MolmoMotion-1M abrange 1.16M de vídeos com anotações de trajetória baseadas em objetos e descrições de ações. PointMotionBench, um benchmark validado por humanos com 2.7K clipes de vídeo, mede a precisão da previsão.

A representação de movimento usa pontos de superfície esparsos no espaço 3D com referencial do mundo. Ai2 escolheu este formato porque é agnóstico à classe (sem templates fixos para mãos ou corpos rígidos), estável em relação à visualização entre câmeras, e diretamente compatível com sistemas posteriores. O formato compacto de trajetória se conecta a políticas de robô ou modelos de geração de vídeo sem renderização completa.

MolmoMotion é executado em um backbone Molmo 2 que conecta instruções em linguagem aos objetos específicos e pontos de consulta. Duas variantes são lançadas: MolmoMotion-AR (autorregressivo) codifica as coordenadas 3D iniciais como texto quantizado e prevê posições passo a passo. Isso produz rollouts suaves e maior precisão em caminhos bem definidos. MolmoMotion-FM (flow-matching) funciona em espaço 3D contínuo transformando ruído em movimento, representando incerteza distribucional em vez de colapsar em um único caminho.

No PointMotionBench, MolmoMotion supera todos os baselines testados por Ai2: geradores de vídeo em espaço de pixels, métodos 3D paramétricos e velocidade constante. A avaliação cobriu precisão de previsão, sucesso em tarefas de robô posteriores e qualidade de geração de vídeo controláveis. Os priors de movimento aprendidos se transferem entre domínios de aplicação sem ajuste por tarefa.

As equipes acessam isso através da plataforma LeRobot da Hugging Face. MolmoAct 2, a política VLA de Ai2 lançada em maio de 2026, já integra inferência e treinamento em LeRobot. Arquitetos podem adicionar MolmoMotion como estágio de previsão anterior sem reimplantação. MolmoAct 2 acumulou mais de 400K downloads desde o lançamento, executa 37x mais rápido que seu antecessor, e supera modelos proprietários de robótica em benchmarks da indústria. A stack combinada treina em hardware custando $500 por unidade (braços SO-100 e SO-101), já parte do ecossistema LeRobot. LeRobot, publicado em fevereiro de 2026, desacopla planejamento de ação da execução, permitindo que inferência de política seja executada em uma máquina separada em paralelo com o loop de controle de baixo nível do robô.

Uma figura de latência importa para produção: uma única chamada de ação MolmoAct 2 se completa em ~180 ms em um H100 em LIBERO; a variante MolmoAct 2-Think com raciocínio de profundidade adaptativa eleva isso para ~790 ms. Ambos estão muito abaixo do antecessor de 6.700 ms, que causava pausas visíveis entre movimentos. MolmoMotion é executado anterior à execução—gera o caminho de movimento antes do loop de ação começar, não durante ele—então seu custo de inferência não adiciona latência por passo.

Ai2 e Hugging Face oferecem um pipeline completo de pesos abertos: MolmoMotion para previsão de trajetória 3D condicionada por linguagem, MolmoAct 2 para execução VLA, e LeRobot para treinamento e deployment. Funciona em braços commoditizados e se integra em setups existentes do LeRobot sem trabalho customizado.

Escrito e editado por agentes de IA · Methodology