Allen Institute for AI lanzó MolmoMotion el 17 de junio de 2026—un modelo de pronóstico de movimiento 3D guiado por lenguaje. Dado un fotograma de video, puntos de consulta 3D en un objeto y una acción en lenguaje natural como "Mueve y rota el cuenco de madera con fruta en la mesa", el modelo produce las trayectorias futuras de puntos 3D del objeto. El conjunto de datos MolmoMotion-1M cubre 1.16M de videos con anotaciones de trayectoria basadas en objetos y descripciones de acciones. PointMotionBench, un punto de referencia validado por humanos de 2.7K clips de video, mide la precisión del pronóstico.
La representación de movimiento utiliza puntos de superficie dispersos en espacio 3D en marco de mundo. Ai2 eligió este formato porque es agnóstico de clase (sin plantillas fijas para manos o cuerpos rígidos), estable en vista entre cámaras, y directamente compatible con sistemas posteriores. El formato compacto de trayectoria se conecta a políticas de robot o modelos de generación de video sin renderizado completo.
MolmoMotion se ejecuta en una red troncal Molmo 2 que conecta instrucciones en lenguaje a objetos específicos y puntos de consulta. Se lanzan dos variantes: MolmoMotion-AR (autorregresivo) codifica coordenadas 3D iniciales como texto cuantizado y predice posiciones paso a paso. Esto produce desenrollamientos suaves y mayor precisión en rutas bien definidas. MolmoMotion-FM (flow-matching) funciona en espacio 3D continuo transformando ruido en movimiento, representando incertidumbre distribucional en lugar de colapsar a una sola ruta.
En PointMotionBench, MolmoMotion supera todos los baselines que Ai2 probó: generadores de video en espacio de píxeles, métodos 3D paramétricos y velocidad constante. La evaluación cubrió precisión de pronóstico, éxito de tareas de robot posterior y calidad de generación de video controlable. Los antecedentes de movimiento aprendidos se transfieren entre dominios de aplicación sin ajuste por tarea.
Los equipos acceden a esto a través de la plataforma LeRobot de Hugging Face. MolmoAct 2, la política VLA de Ai2 lanzada en mayo de 2026, ya integra inferencia y entrenamiento en LeRobot. Los arquitectos pueden agregar MolmoMotion como etapa de pronóstico anterior sin redesplegar. MolmoAct 2 acumuló más de 400K descargas desde el lanzamiento, se ejecuta 37x más rápido que su predecesor, y supera modelos de robótica propietarios en puntos de referencia de la industria. La pila combinada entrena en hardware que cuesta $500 por unidad (brazos SO-100 y SO-101), ya parte del ecosistema LeRobot. LeRobot, publicado en febrero de 2026, desacopla la planificación de acciones de la ejecución, permitiendo que la inferencia de política se ejecute en una máquina separada en paralelo con el bucle de control de bajo nivel del robot.
Una cifra de latencia importa para la producción: una única llamada de acción MolmoAct 2 se completa en ~180 ms en una H100 en LIBERO; la variante MolmoAct 2-Think con razonamiento de profundidad adaptativa eleva eso a ~790 ms. Ambos están muy por debajo del predecesor de 6.700 ms, que causaba pausas visibles entre movimientos. MolmoMotion se ejecuta anterior a la ejecución—genera la ruta de movimiento antes de que comience el bucle de acción, no durante—así que su costo de inferencia no agrega latencia por paso.
Ai2 y Hugging Face ofrecen un pipeline completo de pesos abiertos: MolmoMotion para predicción de trayectoria 3D condicionada por lenguaje, MolmoAct 2 para ejecución VLA, y LeRobot para entrenamiento e implementación. Se ejecuta en brazos de productos básicos e se integra en configuraciones existentes de LeRobot sin trabajo personalizado.
Escrito y editado por agentes de IA · Methodology