Ai2 lança MolmoMotion, reduzindo latência de robôs para 180 milissegundos

Allen Institute for AI lançou MolmoMotion em 17 de junho de 2026—um modelo de previsão de movimento 3D guiado por linguagem. Dado um frame de vídeo, pontos de consulta 3D em um objeto e uma ação em linguagem natural como "Mova e gire a tigela de madeira com frutas na mesa", o modelo produz as trajetórias futuras dos pontos 3D do objeto. O dataset MolmoMotion-1M abrange 1.16M de vídeos com anotações de trajetória baseadas em objetos e descrições de ações. PointMotionBench, um benchmark validado por humanos com 2.7K clipes de vídeo, mede a precisão da previsão.

A representação de movimento usa pontos de superfície esparsos no espaço 3D com referencial do mundo. Ai2 escolheu este formato porque é agnóstico à classe (sem templates fixos para mãos ou corpos rígidos), estável em relação à visualização entre câmeras, e diretamente compatível com sistemas posteriores. O formato compacto de trajetória se conecta a políticas de robô ou modelos de geração de vídeo sem renderização completa.

MolmoMotion é executado em um backbone Molmo 2 que conecta instruções em linguagem aos objetos específicos e pontos de consulta. Duas variantes são lançadas: MolmoMotion-AR (autorregressivo) codifica as coordenadas 3D iniciais como texto quantizado e prevê posições passo a passo. Isso produz rollouts suaves e maior precisão em caminhos bem definidos. MolmoMotion-FM (flow-matching) funciona em espaço 3D contínuo transformando ruído em movimento, representando incerteza distribucional em vez de colapsar em um único caminho.

No PointMotionBench, MolmoMotion supera todos os baselines testados por Ai2: geradores de vídeo em espaço de pixels, métodos 3D paramétricos e velocidade constante. A avaliação cobriu precisão de previsão, sucesso em tarefas de robô posteriores e qualidade de geração de vídeo controláveis. Os priors de movimento aprendidos se transferem entre domínios de aplicação sem ajuste por tarefa.

As equipes acessam isso através da plataforma LeRobot da Hugging Face. MolmoAct 2, a política VLA de Ai2 lançada em maio de 2026, já integra inferência e treinamento em LeRobot. Arquitetos podem adicionar MolmoMotion como estágio de previsão anterior sem reimplantação. MolmoAct 2 acumulou mais de 400K downloads desde o lançamento, executa 37x mais rápido que seu antecessor, e supera modelos proprietários de robótica em benchmarks da indústria. A stack combinada treina em hardware custando $500 por unidade (braços SO-100 e SO-101), já parte do ecossistema LeRobot. LeRobot, publicado em fevereiro de 2026, desacopla planejamento de ação da execução, permitindo que inferência de política seja executada em uma máquina separada em paralelo com o loop de controle de baixo nível do robô.

Uma figura de latência importa para produção: uma única chamada de ação MolmoAct 2 se completa em ~180 ms em um H100 em LIBERO; a variante MolmoAct 2-Think com raciocínio de profundidade adaptativa eleva isso para ~790 ms. Ambos estão muito abaixo do antecessor de 6.700 ms, que causava pausas visíveis entre movimentos. MolmoMotion é executado anterior à execução—gera o caminho de movimento antes do loop de ação começar, não durante ele—então seu custo de inferência não adiciona latência por passo.

Ai2 e Hugging Face oferecem um pipeline completo de pesos abertos: MolmoMotion para previsão de trajetória 3D condicionada por linguagem, MolmoAct 2 para execução VLA, e LeRobot para treinamento e deployment. Funciona em braços commoditizados e se integra em setups existentes do LeRobot sem trabalho customizado.

Sources

MolmoMotion predicts where 3D query points on an object will move over the next few seconds given a video frame and a natural-language action description
"Given a video frame, 3D points marked on an object, and written instructions describing the intended action (e.g., "Move and rotate the wooden bowl with fruit on the table"), MolmoMotion predicts where those points will move over the next few seconds in 3D space"
huggingface.co ↗
MolmoMotion-1M is drawn from 1.16M videos; PointMotionBench contains 2.7K human-validated video clips
"MolmoMotion-1M, the largest collection of 3D point trajectories paired with action descriptions, drawn from 1.16M videos. We're also releasing PointMotionBench, a human-validated benchmark designed to measure object-centric 3D motion forecasting accuracy, containing 2.7K video clips."
huggingface.co ↗
The sparse 3D surface-point representation is class-agnostic, view-stable, and directly passable to downstream systems
"A sparse set of surface points can describe rigid, articulated, and (within limits) deformable motion without assuming the type of object being moved. Because the points live in a shared world frame, their trajectories remain stable across camera motion and viewpoint change."
huggingface.co ↗
MolmoMotion uses Molmo 2 as its backbone to connect language instructions to objects and points in an image
"MolmoMotion uses Molmo 2 as its backbone, allowing it to connect language instructions to objects and points in an image."
huggingface.co ↗
MolmoMotion-AR predicts future coordinates as quantized coordinate text step by step; MolmoMotion-FM transforms noise into motion in continuous 3D space
"The autoregressive variant (MolmoMotion-AR) predicts future coordinates step by step. It represents 3D coordinates as structured text... The flow-matching variant (MolmoMotion-FM) predicts trajectories in continuous 3D space by transforming noise into motion"
huggingface.co ↗
On PointMotionBench, MolmoMotion outperforms all existing 3D motion forecasting methods tested
"On PointMotionBench, MolmoMotion outperforms all existing 3D motion forecasting methods we tested – including pixel-space video generators, parametric 3D methods, and a simple constant-velocity baseline – across a range of objects, scenes, and actions."
huggingface.co ↗
MolmoAct 2 inference and training are integrated into Hugging Face's LeRobot platform
"MolmoAct 2 inference and training are also now integrated into Hugging Face's LeRobot platform, so teams already working in the LeRobot ecosystem can drop the model into their existing setup without retooling."
allenai.org ↗
MolmoAct 2 has been downloaded more than 400K times since release and runs up to 37x faster than its predecessor
"In the weeks since release, MolmoAct 2 artifacts have been downloaded more than 400K times... runs up to 37x faster than its predecessor"
allenai.org ↗
MolmoAct 2 outperforms capable proprietary robotics models on industry benchmarks
"MolmoAct 2, a substantial upgrade that outperforms capable proprietary robotics models on industry benchmarks"
allenai.org ↗
A single MolmoAct 2 base-model action call completes in ~180 ms; with adaptive depth reasoning, ~790 ms; predecessor was 6,700 ms on one H100 in LIBERO
"A single action call takes about 180 ms in the base model and 790 ms in MolmoAct 2 with adaptive depth reasoning, versus 6,700 ms in MolmoAct (running in the LIBERO benchmark environment with 1 NVIDIA H100)"
allenai.org ↗
The LeRobot ecosystem supports sub-$500 SO-100 and SO-101 robot arms
"MolmoAct2-SO100/101, a filtered community dataset from the affordable SO-100 and SO-101 robot arms associated with the Hugging Face LeRobot ecosystem. The SO-100 and SO-101 are sub-$500 robot arms popular among independent researchers and student labs"
techtimes.com ↗
LeRobot decouples action planning from control execution, enabling policy inference to run on a separate machine in parallel with low-level control loops
"An optimized inference stack that decouples action planning from control execution both (1) physically and (2) logically, enabling policies to (1) run on separate machines with increased computational resources compared to those onboard robots, and (2) in parallel with low-level control loops"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Ai2 lança MolmoMotion, reduzindo latência de robôs para 180 milissegundos

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.