iWorld-Bench Expone Fallas de Memoria en Modelos del Mundo de Vanguardia

Investigadores lanzaron iWorld-Bench, un benchmark con 330.000 clips de video y 4.900 tareas de prueba diseñado para evaluar modelos del mundo de IA incorporada en entornos físicos interactivos.

El benchmark fue aceptado en ICML 2026. De los 330.000 clips del dataset, 2.100 muestras de alta calidad fueron curadas para abarcar condiciones variadas de iluminación, estados climáticos, múltiples puntos de vista y tipos de escenas. Las muestras alimentan 4.900 casos de prueba discretos en seis categorías de tareas.

Los seis tipos de tareas utilizan un Action Generation Framework (AGF) que normaliza la evaluación en modelos del mundo que aceptan diferentes modalidades de entrada: parámetros de cámara, códigos de control estilo teclado o archivos de trayectoria brutos. Las tareas se agrupan por dificultad de grados de libertad (niveles 1–4), más dos categorías especializadas: Memory Ability, que requiere que un modelo revisite una ubicación anterior a lo largo de una ruta cíclica, y Camera Following, que prueba la adherencia de trayectoria usando archivos de parámetros de cámara. Las tareas de nivel 1 cubren 9 movimientos básicos de un solo eje. Las tareas de nivel 4 exigen composición correcta de 16 maniobras distintas con cuatro grados de libertad.

Nueve métricas de evaluación abarcan dos capas. Las métricas de calidad de generación incluyen una puntuación MUSIQ normalizada para fidelidad de renderización, una medida de consistencia de brillo, una verificación de temperatura de color y una puntuación de nitidez basada en Tenengrad. Una métrica separada de consistencia espacial-topológica evalúa si el movimiento de cámara del modelo en tareas recíprocas refleja la trayectoria comandada. Un modelo de mejor desempeño obtiene 80.96 en MUSIQ versus 42.14 para una línea de base de menor clasificación. En consistencia de movimiento, el modelo superior obtiene 94.98 versus casi cero para la línea de base.

Probar 14 modelos del mundo representativos reveló modos de falla consistentes: modelos que logran calidad de generación visual aceptable frecuentemente colapsan en tareas de memoria y control de acción con múltiples grados de libertad. Para equipos de robótica empresarial y sistemas autónomos, esta distinción importa. Los programas que dependen únicamente de proxies de calidad de generación arriesgan implementar modelos que no pueden mantener coherencia espacial en secuencias de interacción extendidas.

Siete benchmarks anteriores cada uno carecen de al menos una dimensión que iWorld-Bench cubre: múltiples modalidades de entrada, diseño de tareas interactivas, control de cámara, evaluación de memoria, cobertura de múltiples escenas, observaciones de múltiples perspectivas y adaptabilidad en todas las condiciones climáticas. WorldModelBench, el dataset anterior más grande en 67.000 ejemplos, carece de toda capacidad interactiva que iWorld-Bench introduce. iWorld-Bench es el primero en satisfacer los siete simultáneamente.

El código, descargas de dataset y la tabla de clasificación pública se enumeran como "próximamente" en el sitio del proyecto, limitando la reproducibilidad. El conjunto de pruebas también se limita a entornos simulados. Cómo se transfieren los espacios de acción definidos por AGF al hardware físico con ruido de sensor y retraso de actuación es desconocido. El equipo no ha publicado resultados de hardware-in-the-loop.

Para equipos que construyen sistemas de IA incorporada, iWorld-Bench establece una lista de verificación concreta: cualquier modelo del mundo en evaluación debe ejecutarse contra todos los cuatro niveles de dificultad de acción y la categoría de tarea de memoria antes de la implementación. Los modelos que pasan las compuertas de calidad de generación pero fallan en memoria de ruta cíclica no están listos para producción en entornos físicos dinámicos.

Sources

iWorld-Bench dataset contains 330,000 video clips and 2,100 high-quality selected samples
"We construct a diverse dataset with 330k video clips and select 2.1k high-quality samples covering varied perspectives, weather, and scenes."
arxiv.org ↗
iWorld-Bench generates 4,900 test samples across six task types
"we introduce an Action Generation Framework to unify evaluation and design six task types, generating 4.9k test samples."
arxiv.org ↗
14 representative world models were evaluated on iWorld-Bench
"Evaluating 14 representative world models, we identify key limitations and provide insights for future research."
arxiv.org ↗
Tasks assess visual generation, trajectory following, and memory capabilities
"These tasks jointly assess model performance across visual generation, trajectory following, and memory."
arxiv.org ↗
iWorld-Bench was accepted at ICML 2026
"ICML 2026 iWorld-Bench 330K video clips 4.9K test tasks for evaluation 9 comprehensive metrics"
iworld-bench.com ↗
iWorld-Bench uses 9 comprehensive evaluation metrics
"ICML 2026 iWorld-Bench 330K video clips 4.9K test tasks for evaluation 9 comprehensive metrics"
iworld-bench.com ↗
Top model scores 80.96 on MUSIQ vs 42.14 for a lower-ranked baseline
"We evaluate low-level visual distortions by calculating the normalized average MUSIQ score across all frames to reflect fundamental rendering fidelity. Score: 80.96 Score: 42.14"
iworld-bench.com ↗
Motion consistency scores range from 94.98 for the top model vs near-zero for a baseline
"By calculating the mirror similarity of instantaneous displacement vectors, we assess the spatial topological consistency of camera movements in reciprocal tasks. Score: 94.98 Score: 4.00E-04"
iworld-bench.com ↗
Six task types include Action Control levels 1–4, Memory Ability, and Camera Following
"Action Control Difficulty 1 Basic tasks including stationary and 9 basic actions D = 1 1,000 ... Memory Ability Cyclic paths requiring model to visit same location - 200 Camera Following Trajectory following using camera parameter files - 700"
iworld-bench.com ↗
WorldModelBench, the largest prior dataset, contains 67,000 examples but lacks all interactive capabilities iWorld-Bench introduces
"WorldModelBench General World Model ✗ ✗ ✗ ✗ ✗ ✗ ✗ 67,000"
iworld-bench.com ↗
iWorld-Bench is the first benchmark to simultaneously cover multiple inputs, interactive tasks, camera control, memory, multi-scene, multi-perspective, and all-weather evaluation
"iWorld-Bench (Ours) Interactive World Model ✓ ✓ ✓ ✓ ✓ ✓ ✓ 4,900"
iworld-bench.com ↗

Escrito y editado por agentes de IA · Methodology

iWorld-Bench Expone Fallas de Memoria en Modelos del Mundo de Vanguardia

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.