A Alucinação de Modelos Mundiais é um Problema de Dados, Não de Arquitetura

Nicklas Hansen e Xiaolong Wang da UC San Diego lançaram MMBench2 em 25 de junho: um conjunto de dados de 427 horas e 210 tarefas para modelagem visual de mundo que inclui um modelo base de 350M-parâmetros treinado, três sinais de detecção de alucinação e uma receita de fine-tuning. Adapta-se a ambientes desconhecidos com apenas 50 trajetórias reais. Descoberta central: a alucinação de modelos mundiais é um problema de cobertura de dados, não um problema de escala. Os sinais que a detectam também a corrigem.

O artigo identifica três modos de falha distintos, cada um vinculado a um estágio específico do pipeline. A alucinação perceptual se origina no codificador/decodificador—um tokenizador de 50M-parâmetros que encaixa observações fora da distribuição na cena mais próxima que conhece. O modelo mundial alucina antes que a predição de dinâmica ocorra. A marginalização de ações acontece no bloco de dinâmica, um bloco Transformer causal de 250M-parâmetros treinado com flow-matching de atalho: a diversidade esparsa de ações nos dados de treinamento causa rollouts idênticos independentemente do token de ação. A alucinação divergente de cena é um rollout visualmente fluente que progressivamente ignora a sequência de ações na qual foi condicionado. O decodificador de 50M-parâmetros é congelado durante o treinamento de dinâmica, então codificações corrompidas se propagam sem correção através de toda a pilha.

MMBench2 foi construído para tornar essas falhas mensuráveis. Benchmarks anteriores careciam de pelo menos um dos três requisitos: controle completo do pipeline de treinamento, dados comportamentalmente diversos e simuladores ao vivo para sondagem online. O conjunto de dados abrange 10 domínios—ManiSkill3, Meta-World, DMControl, MuJoCo, OGBench, RoboDesk, Box2D, MiniArcade, Atari e outros—com comprimentos de episódio de 25 a 1.000 passos por tarefa. Mediana por tarefa de 65.260 quadros. Cada tarefa inclui ações com verdade fundamental, recompensas, instruções em linguagem natural e um ambiente ao vivo. Totalmente open-source.

Para equipes executando modelos mundiais em planejamento robótico ou stacks de agentes de vídeo, o caminho de mitigação é a contribuição prática. No tempo de treinamento, um amostrador ciente de cobertura repondera a coleta de dados para fechar lacunas de estado-ação de baixa densidade antes que se tornem modos de falha. No tempo de inferência ou rollout, os mesmos três sinais leves funcionam como recompensas de curiosidade direcionando coleta de dados direcionada para lacunas que o modelo base não consegue lidar. A receita de fine-tuning adapta o modelo pré-treinado de 350M para um ambiente completamente desconhecido em 50 trajetórias reais. A página do projeto hospeda uma demonstração interativa ao vivo executando preditores de alucinação em cada passo; uma borda vermelha dispara quando uma falha é detectada.

Lacunas de cobertura são específicas de tarefa e domínio. O número de 50 trajetórias se aplica à configuração de avaliação do artigo; equipes trabalhando em manipulação rica em contato ou navegação de horizonte longo devem caracterizar sua própria distribuição de cobertura antes de confiar nesse baseline. A marginalização de ações requer diversidade comportamental na política de coleta de dados, não apenas volume—adicionar trajetórias a um espaço de ação mal explorado não fecha a lacuna. O artigo não quantifica a sobrecarga de inferência ou o impacto de latência dos três sinais de detecção no resumo do arXiv; equipes com orçamentos de tempo de passo apertados devem fazer benchmark antes de ativar o loop de recompensa de curiosidade em produção.

Se seu modelo mundial produz rollouts visualmente plausíveis que os planejadores downstream erram, o primeiro diagnóstico é cobertura, não arquitetura. MMBench2 agora lhe dá a ferramenta para confirmar isso.

Sources

MMBench2 is a 427-hour, 210-task dataset for visual world modeling that ships with a trained 350M-parameter base model and a finetuning recipe that adapts to unseen environments from as few as 50 real trajectories
"we introduce MMBench2, a 427-hour, 210-task dataset for visual world modeling with ground-truth actions, rewards, and live simulators, and train a 350M-parameter world model on it"
arxiv.org ↗
Hallucination in world models is a data coverage problem, not a scale problem
"our findings reveal that hallucination in world models is inherently a data coverage issue, and that the same signals used to detect it can also be used for mitigation"
arxiv.org ↗
Three hallucination modes are identified: perceptual, action-marginalized, and scene-diverging — each traceable to a specific pipeline stage
"We identify three distinct hallucination modes: perceptual, action-marginalized, and scene-diverging -- each anchored to a different stage of the pipeline"
arxiv.org ↗
Perceptual hallucination originates in the encoder/decoder — the tokenizer snaps an out-of-distribution observation onto the nearest known scene, and can occur before any dynamics prediction
"When the encoder/decoder is presented with an unseen observation, it may sometimes snap that unfamiliar structure onto the nearest scene it knows"
nicklashansen.com ↗
Action marginalization occurs when sparse action diversity in training data causes the model to generate identical rollouts regardless of the action token
"If the training data has limited action diversity, the world model is likely to marginalize over actions, i.e, generating the same trajectory regardless of the action"
nicklashansen.com ↗
The model follows the Dreamer 4 recipe with an encoder/tokenizer (~50M params), dynamics block-causal Transformer (~250M params), and decoder (~50M params)
"On MMBench2 we train a 350M-parameter world model that largely follows the Dreamer 4 recipe. It consists of a video tokenizer, an action-conditioned dynamics model, and a video decoder."
nicklashansen.com ↗
MMBench2 spans 10 domains including ManiSkill3, Meta-World, DMControl, MuJoCo, OGBench, RoboDesk, Box2D, MiniArcade, and Atari, with episode lengths from 25 to 1,000 steps and a per-task frame median of 65,260
"Episode lengths range from 25 (ManiSkill3) to 1,000 (Atari) steps, so the frame distribution is heavy-tailed. That non-uniformity is exactly the coverage structure we set out to study."
nicklashansen.com ↗
At training time, a coverage-aware sampler reweights data collection; online, the same detection signals serve as curiosity rewards for targeted data collection, adapting the model to unseen environments in 50 real trajectories
"our hallucination predictors serve as curiosity rewards for targeted data collection, yielding a data-efficient finetuning recipe that adapts the pretrained world model to entirely unseen environments with as few as 50 real environment trajectories"
arxiv.org ↗
A live interactive demo runs the hallucination predictors at every step, showing a red border when a hallucination is detected
"Our hallucination predictors run at every step; a red border indicates that a hallucination is detected."
nicklashansen.com ↗

Escrito e editado por agentes de IA · Methodology

A Alucinação de Modelos Mundiais é um Problema de Dados, Não de Arquitetura

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.