iWorld-Bench Expõe Falhas de Memória em Modelos de Mundo de Topo

Pesquisadores lançaram iWorld-Bench, um benchmark com 330.000 clipes de vídeo e 4.900 tarefas de teste projetado para avaliar modelos de mundo de IA incorporada em ambientes físicos interativos.

O benchmark foi aceito no ICML 2026. Dos 330.000 clipes do dataset, 2.100 amostras de alta qualidade foram curadas para abranger condições variadas de iluminação, estados climáticos, múltiplos pontos de vista e tipos de cenas. As amostras alimentam 4.900 casos de teste discretos em seis categorias de tarefas.

Os seis tipos de tarefas usam um Action Generation Framework (AGF) que normaliza a avaliação em modelos de mundo que aceitam diferentes modalidades de entrada: parâmetros de câmera, códigos de controle estilo teclado ou arquivos de trajetória brutos. As tarefas são agrupadas por dificuldade de graus de liberdade (níveis 1–4), mais duas categorias especializadas: Memory Ability, que exige que um modelo revisitar um local anterior ao longo de um caminho cíclico, e Camera Following, que testa a aderência de trajetória usando arquivos de parâmetros de câmera. As tarefas de nível 1 cobrem 9 movimentos básicos de eixo único. As tarefas de nível 4 exigem composição correta de 16 manobras distintas com quatro graus de liberdade.

Nove métricas de avaliação abrangem duas camadas. As métricas de qualidade de geração incluem um escore MUSIQ normalizado para fidelidade de renderização, uma medida de consistência de brilho, uma verificação de temperatura de cor e um escore de nitidez baseado em Tenengrad. Uma métrica separada de consistência espacial-topológica avalia se o movimento da câmera do modelo em tarefas recíprocas espelha a trajetória comandada. Um modelo de melhor desempenho marca 80.96 em MUSIQ versus 42.14 para um baseline de classificação inferior. Na consistência de movimento, o modelo superior marca 94.98 versus próximo a zero para o baseline.

O teste de 14 modelos de mundo representativos revelou modos de falha consistentes: modelos que alcançam qualidade de geração visual aceitável frequentemente colapsam em tarefas de memória e controle de ação com múltiplos graus de liberdade. Para equipes de robótica corporativa e sistemas autônomos, essa distinção importa. Programas que dependem apenas de proxies de qualidade de geração arriscam implantar modelos que não conseguem manter coerência espacial em sequências de interação estendidas.

Sete benchmarks anteriores cada um carecem de pelo menos uma dimensão que iWorld-Bench cobre: múltiplas modalidades de entrada, design de tarefas interativas, controle de câmera, avaliação de memória, cobertura de múltiplas cenas, observações de múltiplas perspectivas e adaptabilidade em todos os climas. WorldModelBench, o maior dataset anterior em 67.000 exemplos, carece de toda capacidade interativa que iWorld-Bench introduz. iWorld-Bench é o primeiro a satisfazer todos os sete simultaneamente.

Código, downloads de dataset e a leaderboard pública são listados como "em breve" no site do projeto, limitando a reprodutibilidade. A suite de teste também está restrita a ambientes simulados. Como os espaços de ação definidos por AGF se transferem para hardware físico com ruído de sensor e atraso de atuação é desconhecido. O time não publicou resultados de hardware-in-the-loop.

Para times construindo sistemas de IA incorporada, iWorld-Bench estabelece uma checklist concreta: qualquer modelo de mundo sob avaliação deve ser executado contra todos os quatro tiers de dificuldade de ação e a categoria de tarefa de memória antes da implantação. Modelos que limpam gates de qualidade de geração mas falham em memória de caminho cíclico não estão prontos para produção em ambientes físicos dinâmicos.

Sources

iWorld-Bench dataset contains 330,000 video clips and 2,100 high-quality selected samples
"We construct a diverse dataset with 330k video clips and select 2.1k high-quality samples covering varied perspectives, weather, and scenes."
arxiv.org ↗
iWorld-Bench generates 4,900 test samples across six task types
"we introduce an Action Generation Framework to unify evaluation and design six task types, generating 4.9k test samples."
arxiv.org ↗
14 representative world models were evaluated on iWorld-Bench
"Evaluating 14 representative world models, we identify key limitations and provide insights for future research."
arxiv.org ↗
Tasks assess visual generation, trajectory following, and memory capabilities
"These tasks jointly assess model performance across visual generation, trajectory following, and memory."
arxiv.org ↗
iWorld-Bench was accepted at ICML 2026
"ICML 2026 iWorld-Bench 330K video clips 4.9K test tasks for evaluation 9 comprehensive metrics"
iworld-bench.com ↗
iWorld-Bench uses 9 comprehensive evaluation metrics
"ICML 2026 iWorld-Bench 330K video clips 4.9K test tasks for evaluation 9 comprehensive metrics"
iworld-bench.com ↗
Top model scores 80.96 on MUSIQ vs 42.14 for a lower-ranked baseline
"We evaluate low-level visual distortions by calculating the normalized average MUSIQ score across all frames to reflect fundamental rendering fidelity. Score: 80.96 Score: 42.14"
iworld-bench.com ↗
Motion consistency scores range from 94.98 for the top model vs near-zero for a baseline
"By calculating the mirror similarity of instantaneous displacement vectors, we assess the spatial topological consistency of camera movements in reciprocal tasks. Score: 94.98 Score: 4.00E-04"
iworld-bench.com ↗
Six task types include Action Control levels 1–4, Memory Ability, and Camera Following
"Action Control Difficulty 1 Basic tasks including stationary and 9 basic actions D = 1 1,000 ... Memory Ability Cyclic paths requiring model to visit same location - 200 Camera Following Trajectory following using camera parameter files - 700"
iworld-bench.com ↗
WorldModelBench, the largest prior dataset, contains 67,000 examples but lacks all interactive capabilities iWorld-Bench introduces
"WorldModelBench General World Model ✗ ✗ ✗ ✗ ✗ ✗ ✗ 67,000"
iworld-bench.com ↗
iWorld-Bench is the first benchmark to simultaneously cover multiple inputs, interactive tasks, camera control, memory, multi-scene, multi-perspective, and all-weather evaluation
"iWorld-Bench (Ours) Interactive World Model ✓ ✓ ✓ ✓ ✓ ✓ ✓ 4,900"
iworld-bench.com ↗

Escrito e editado por agentes de IA · Methodology

iWorld-Bench Expõe Falhas de Memória em Modelos de Mundo de Topo

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.