Ai2 lanza MolmoMotion, reduciendo la latencia de robots a 180 milisegundos

Allen Institute for AI lanzó MolmoMotion el 17 de junio de 2026—un modelo de pronóstico de movimiento 3D guiado por lenguaje. Dado un fotograma de video, puntos de consulta 3D en un objeto y una acción en lenguaje natural como "Mueve y rota el cuenco de madera con fruta en la mesa", el modelo produce las trayectorias futuras de puntos 3D del objeto. El conjunto de datos MolmoMotion-1M cubre 1.16M de videos con anotaciones de trayectoria basadas en objetos y descripciones de acciones. PointMotionBench, un punto de referencia validado por humanos de 2.7K clips de video, mide la precisión del pronóstico.

La representación de movimiento utiliza puntos de superficie dispersos en espacio 3D en marco de mundo. Ai2 eligió este formato porque es agnóstico de clase (sin plantillas fijas para manos o cuerpos rígidos), estable en vista entre cámaras, y directamente compatible con sistemas posteriores. El formato compacto de trayectoria se conecta a políticas de robot o modelos de generación de video sin renderizado completo.

MolmoMotion se ejecuta en una red troncal Molmo 2 que conecta instrucciones en lenguaje a objetos específicos y puntos de consulta. Se lanzan dos variantes: MolmoMotion-AR (autorregresivo) codifica coordenadas 3D iniciales como texto cuantizado y predice posiciones paso a paso. Esto produce desenrollamientos suaves y mayor precisión en rutas bien definidas. MolmoMotion-FM (flow-matching) funciona en espacio 3D continuo transformando ruido en movimiento, representando incertidumbre distribucional en lugar de colapsar a una sola ruta.

En PointMotionBench, MolmoMotion supera todos los baselines que Ai2 probó: generadores de video en espacio de píxeles, métodos 3D paramétricos y velocidad constante. La evaluación cubrió precisión de pronóstico, éxito de tareas de robot posterior y calidad de generación de video controlable. Los antecedentes de movimiento aprendidos se transfieren entre dominios de aplicación sin ajuste por tarea.

Los equipos acceden a esto a través de la plataforma LeRobot de Hugging Face. MolmoAct 2, la política VLA de Ai2 lanzada en mayo de 2026, ya integra inferencia y entrenamiento en LeRobot. Los arquitectos pueden agregar MolmoMotion como etapa de pronóstico anterior sin redesplegar. MolmoAct 2 acumuló más de 400K descargas desde el lanzamiento, se ejecuta 37x más rápido que su predecesor, y supera modelos de robótica propietarios en puntos de referencia de la industria. La pila combinada entrena en hardware que cuesta $500 por unidad (brazos SO-100 y SO-101), ya parte del ecosistema LeRobot. LeRobot, publicado en febrero de 2026, desacopla la planificación de acciones de la ejecución, permitiendo que la inferencia de política se ejecute en una máquina separada en paralelo con el bucle de control de bajo nivel del robot.

Una cifra de latencia importa para la producción: una única llamada de acción MolmoAct 2 se completa en ~180 ms en una H100 en LIBERO; la variante MolmoAct 2-Think con razonamiento de profundidad adaptativa eleva eso a ~790 ms. Ambos están muy por debajo del predecesor de 6.700 ms, que causaba pausas visibles entre movimientos. MolmoMotion se ejecuta anterior a la ejecución—genera la ruta de movimiento antes de que comience el bucle de acción, no durante—así que su costo de inferencia no agrega latencia por paso.

Ai2 y Hugging Face ofrecen un pipeline completo de pesos abiertos: MolmoMotion para predicción de trayectoria 3D condicionada por lenguaje, MolmoAct 2 para ejecución VLA, y LeRobot para entrenamiento e implementación. Se ejecuta en brazos de productos básicos e se integra en configuraciones existentes de LeRobot sin trabajo personalizado.

Sources

MolmoMotion predicts where 3D query points on an object will move over the next few seconds given a video frame and a natural-language action description
"Given a video frame, 3D points marked on an object, and written instructions describing the intended action (e.g., "Move and rotate the wooden bowl with fruit on the table"), MolmoMotion predicts where those points will move over the next few seconds in 3D space"
huggingface.co ↗
MolmoMotion-1M is drawn from 1.16M videos; PointMotionBench contains 2.7K human-validated video clips
"MolmoMotion-1M, the largest collection of 3D point trajectories paired with action descriptions, drawn from 1.16M videos. We're also releasing PointMotionBench, a human-validated benchmark designed to measure object-centric 3D motion forecasting accuracy, containing 2.7K video clips."
huggingface.co ↗
The sparse 3D surface-point representation is class-agnostic, view-stable, and directly passable to downstream systems
"A sparse set of surface points can describe rigid, articulated, and (within limits) deformable motion without assuming the type of object being moved. Because the points live in a shared world frame, their trajectories remain stable across camera motion and viewpoint change."
huggingface.co ↗
MolmoMotion uses Molmo 2 as its backbone to connect language instructions to objects and points in an image
"MolmoMotion uses Molmo 2 as its backbone, allowing it to connect language instructions to objects and points in an image."
huggingface.co ↗
MolmoMotion-AR predicts future coordinates as quantized coordinate text step by step; MolmoMotion-FM transforms noise into motion in continuous 3D space
"The autoregressive variant (MolmoMotion-AR) predicts future coordinates step by step. It represents 3D coordinates as structured text... The flow-matching variant (MolmoMotion-FM) predicts trajectories in continuous 3D space by transforming noise into motion"
huggingface.co ↗
On PointMotionBench, MolmoMotion outperforms all existing 3D motion forecasting methods tested
"On PointMotionBench, MolmoMotion outperforms all existing 3D motion forecasting methods we tested – including pixel-space video generators, parametric 3D methods, and a simple constant-velocity baseline – across a range of objects, scenes, and actions."
huggingface.co ↗
MolmoAct 2 inference and training are integrated into Hugging Face's LeRobot platform
"MolmoAct 2 inference and training are also now integrated into Hugging Face's LeRobot platform, so teams already working in the LeRobot ecosystem can drop the model into their existing setup without retooling."
allenai.org ↗
MolmoAct 2 has been downloaded more than 400K times since release and runs up to 37x faster than its predecessor
"In the weeks since release, MolmoAct 2 artifacts have been downloaded more than 400K times... runs up to 37x faster than its predecessor"
allenai.org ↗
MolmoAct 2 outperforms capable proprietary robotics models on industry benchmarks
"MolmoAct 2, a substantial upgrade that outperforms capable proprietary robotics models on industry benchmarks"
allenai.org ↗
A single MolmoAct 2 base-model action call completes in ~180 ms; with adaptive depth reasoning, ~790 ms; predecessor was 6,700 ms on one H100 in LIBERO
"A single action call takes about 180 ms in the base model and 790 ms in MolmoAct 2 with adaptive depth reasoning, versus 6,700 ms in MolmoAct (running in the LIBERO benchmark environment with 1 NVIDIA H100)"
allenai.org ↗
The LeRobot ecosystem supports sub-$500 SO-100 and SO-101 robot arms
"MolmoAct2-SO100/101, a filtered community dataset from the affordable SO-100 and SO-101 robot arms associated with the Hugging Face LeRobot ecosystem. The SO-100 and SO-101 are sub-$500 robot arms popular among independent researchers and student labs"
techtimes.com ↗
LeRobot decouples action planning from control execution, enabling policy inference to run on a separate machine in parallel with low-level control loops
"An optimized inference stack that decouples action planning from control execution both (1) physically and (2) logically, enabling policies to (1) run on separate machines with increased computational resources compared to those onboard robots, and (2) in parallel with low-level control loops"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Ai2 lanza MolmoMotion, reduciendo la latencia de robots a 180 milisegundos

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.