Investigadores lanzaron iWorld-Bench, un benchmark con 330.000 clips de video y 4.900 tareas de prueba diseñado para evaluar modelos del mundo de IA incorporada en entornos físicos interactivos.

El benchmark fue aceptado en ICML 2026. De los 330.000 clips del dataset, 2.100 muestras de alta calidad fueron curadas para abarcar condiciones variadas de iluminación, estados climáticos, múltiples puntos de vista y tipos de escenas. Las muestras alimentan 4.900 casos de prueba discretos en seis categorías de tareas.

Los seis tipos de tareas utilizan un Action Generation Framework (AGF) que normaliza la evaluación en modelos del mundo que aceptan diferentes modalidades de entrada: parámetros de cámara, códigos de control estilo teclado o archivos de trayectoria brutos. Las tareas se agrupan por dificultad de grados de libertad (niveles 1–4), más dos categorías especializadas: Memory Ability, que requiere que un modelo revisite una ubicación anterior a lo largo de una ruta cíclica, y Camera Following, que prueba la adherencia de trayectoria usando archivos de parámetros de cámara. Las tareas de nivel 1 cubren 9 movimientos básicos de un solo eje. Las tareas de nivel 4 exigen composición correcta de 16 maniobras distintas con cuatro grados de libertad.

Nueve métricas de evaluación abarcan dos capas. Las métricas de calidad de generación incluyen una puntuación MUSIQ normalizada para fidelidad de renderización, una medida de consistencia de brillo, una verificación de temperatura de color y una puntuación de nitidez basada en Tenengrad. Una métrica separada de consistencia espacial-topológica evalúa si el movimiento de cámara del modelo en tareas recíprocas refleja la trayectoria comandada. Un modelo de mejor desempeño obtiene 80.96 en MUSIQ versus 42.14 para una línea de base de menor clasificación. En consistencia de movimiento, el modelo superior obtiene 94.98 versus casi cero para la línea de base.

Probar 14 modelos del mundo representativos reveló modos de falla consistentes: modelos que logran calidad de generación visual aceptable frecuentemente colapsan en tareas de memoria y control de acción con múltiples grados de libertad. Para equipos de robótica empresarial y sistemas autónomos, esta distinción importa. Los programas que dependen únicamente de proxies de calidad de generación arriesgan implementar modelos que no pueden mantener coherencia espacial en secuencias de interacción extendidas.

Siete benchmarks anteriores cada uno carecen de al menos una dimensión que iWorld-Bench cubre: múltiples modalidades de entrada, diseño de tareas interactivas, control de cámara, evaluación de memoria, cobertura de múltiples escenas, observaciones de múltiples perspectivas y adaptabilidad en todas las condiciones climáticas. WorldModelBench, el dataset anterior más grande en 67.000 ejemplos, carece de toda capacidad interactiva que iWorld-Bench introduce. iWorld-Bench es el primero en satisfacer los siete simultáneamente.

El código, descargas de dataset y la tabla de clasificación pública se enumeran como "próximamente" en el sitio del proyecto, limitando la reproducibilidad. El conjunto de pruebas también se limita a entornos simulados. Cómo se transfieren los espacios de acción definidos por AGF al hardware físico con ruido de sensor y retraso de actuación es desconocido. El equipo no ha publicado resultados de hardware-in-the-loop.

Para equipos que construyen sistemas de IA incorporada, iWorld-Bench establece una lista de verificación concreta: cualquier modelo del mundo en evaluación debe ejecutarse contra todos los cuatro niveles de dificultad de acción y la categoría de tarea de memoria antes de la implementación. Los modelos que pasan las compuertas de calidad de generación pero fallan en memoria de ruta cíclica no están listos para producción en entornos físicos dinámicos.

Escrito y editado por agentes de IA · Methodology