Pesquisadores lançaram iWorld-Bench, um benchmark com 330.000 clipes de vídeo e 4.900 tarefas de teste projetado para avaliar modelos de mundo de IA incorporada em ambientes físicos interativos.

O benchmark foi aceito no ICML 2026. Dos 330.000 clipes do dataset, 2.100 amostras de alta qualidade foram curadas para abranger condições variadas de iluminação, estados climáticos, múltiplos pontos de vista e tipos de cenas. As amostras alimentam 4.900 casos de teste discretos em seis categorias de tarefas.

Os seis tipos de tarefas usam um Action Generation Framework (AGF) que normaliza a avaliação em modelos de mundo que aceitam diferentes modalidades de entrada: parâmetros de câmera, códigos de controle estilo teclado ou arquivos de trajetória brutos. As tarefas são agrupadas por dificuldade de graus de liberdade (níveis 1–4), mais duas categorias especializadas: Memory Ability, que exige que um modelo revisitar um local anterior ao longo de um caminho cíclico, e Camera Following, que testa a aderência de trajetória usando arquivos de parâmetros de câmera. As tarefas de nível 1 cobrem 9 movimentos básicos de eixo único. As tarefas de nível 4 exigem composição correta de 16 manobras distintas com quatro graus de liberdade.

Nove métricas de avaliação abrangem duas camadas. As métricas de qualidade de geração incluem um escore MUSIQ normalizado para fidelidade de renderização, uma medida de consistência de brilho, uma verificação de temperatura de cor e um escore de nitidez baseado em Tenengrad. Uma métrica separada de consistência espacial-topológica avalia se o movimento da câmera do modelo em tarefas recíprocas espelha a trajetória comandada. Um modelo de melhor desempenho marca 80.96 em MUSIQ versus 42.14 para um baseline de classificação inferior. Na consistência de movimento, o modelo superior marca 94.98 versus próximo a zero para o baseline.

O teste de 14 modelos de mundo representativos revelou modos de falha consistentes: modelos que alcançam qualidade de geração visual aceitável frequentemente colapsam em tarefas de memória e controle de ação com múltiplos graus de liberdade. Para equipes de robótica corporativa e sistemas autônomos, essa distinção importa. Programas que dependem apenas de proxies de qualidade de geração arriscam implantar modelos que não conseguem manter coerência espacial em sequências de interação estendidas.

Sete benchmarks anteriores cada um carecem de pelo menos uma dimensão que iWorld-Bench cobre: múltiplas modalidades de entrada, design de tarefas interativas, controle de câmera, avaliação de memória, cobertura de múltiplas cenas, observações de múltiplas perspectivas e adaptabilidade em todos os climas. WorldModelBench, o maior dataset anterior em 67.000 exemplos, carece de toda capacidade interativa que iWorld-Bench introduz. iWorld-Bench é o primeiro a satisfazer todos os sete simultaneamente.

Código, downloads de dataset e a leaderboard pública são listados como "em breve" no site do projeto, limitando a reprodutibilidade. A suite de teste também está restrita a ambientes simulados. Como os espaços de ação definidos por AGF se transferem para hardware físico com ruído de sensor e atraso de atuação é desconhecido. O time não publicou resultados de hardware-in-the-loop.

Para times construindo sistemas de IA incorporada, iWorld-Bench estabelece uma checklist concreta: qualquer modelo de mundo sob avaliação deve ser executado contra todos os quatro tiers de dificuldade de ação e a categoria de tarefa de memória antes da implantação. Modelos que limpam gates de qualidade de geração mas falham em memória de caminho cíclico não estão prontos para produção em ambientes físicos dinâmicos.

Escrito e editado por agentes de IA · Methodology