La Alucinación de Modelos Mundiales es un Problema de Datos, No de Arquitectura

Nicklas Hansen y Xiaolong Wang en UC San Diego lanzaron MMBench2 el 25 de junio: un conjunto de datos de 427 horas y 210 tareas para modelado visual de mundo que incluye un modelo base entrenado de 350M-parámetros, tres señales de detección de alucinación y una receta de fine-tuning. Se adapta a entornos no vistos a partir de solo 50 trayectorias reales. Hallazgo central: la alucinación de modelos mundiales es un problema de cobertura de datos, no un problema de escala. Las señales que la detectan también la corrigen.

El artículo identifica tres modos de fallo distintos, cada uno vinculado a una etapa específica del pipeline. La alucinación perceptual se origina en el codificador/decodificador—un tokenizador de 50M-parámetros que encaja observaciones fuera de distribución en la escena más cercana que conoce. El modelo mundial alucina antes de que ocurra la predicción de dinámica. La marginalización de acciones ocurre en el bloque de dinámica, un bloque Transformer causal de 250M-parámetros entrenado con flow-matching de atajo: la diversidad escasa de acciones en los datos de entrenamiento causa rollouts idénticos independientemente del token de acción. La alucinación que diverge en escena es un rollout visualmente fluido que progresivamente ignora la secuencia de acciones en la que fue condicionado. El decodificador de 50M-parámetros se congela durante el entrenamiento de dinámica, por lo que las codificaciones corruptas se propagan sin corregir a través de toda la pila.

MMBench2 fue construido para hacer estos fallos medibles. Los benchmarks anteriores carecían de al menos uno de tres requisitos: control completo del pipeline de entrenamiento, datos con diversidad conductual y simuladores en vivo para sondeo en línea. El conjunto de datos abarca 10 dominios—ManiSkill3, Meta-World, DMControl, MuJoCo, OGBench, RoboDesk, Box2D, MiniArcade, Atari y otros—con longitudes de episodio de 25 a 1.000 pasos por tarea. Mediana por tarea de 65.260 fotogramas. Cada tarea incluye acciones de verdad fundamental, recompensas, instrucciones en lenguaje natural y un entorno en vivo. Completamente de código abierto.

Para equipos que ejecutan modelos mundiales en planificación robótica o stacks de agentes de video, la ruta de mitigación es la contribución práctica. Durante el tiempo de entrenamiento, un muestreador consciente de cobertura repesa la recopilación de datos para cerrar brechas estado-acción de baja densidad antes de que se conviertan en modos de fallo. Durante el tiempo de inferencia o rollout, las mismas tres señales ligeras funcionan como recompensas de curiosidad dirigiendo la recopilación de datos orientada hacia brechas que el modelo base no puede manejar. La receta de fine-tuning adapta el modelo preentrenado de 350M a un entorno completamente no visto en 50 trayectorias reales. La página del proyecto aloja una demostración interactiva en vivo ejecutando predictores de alucinación en cada paso; un borde rojo se dispara cuando se detecta un fallo.

Las brechas de cobertura son específicas de la tarea y el dominio. El número de 50 trayectorias se aplica a la configuración de evaluación del artículo; los equipos que trabajan en manipulación rica en contacto o navegación de horizonte largo deben caracterizar su propia distribución de cobertura antes de confiar en esa línea base. La marginalización de acciones requiere diversidad conductual en la política de recopilación de datos, no solo volumen—agregar trayectorias a un espacio de acciones poco explorado no cierra la brecha. El artículo no cuantifica la sobrecarga de inferencia o el impacto de latencia de las tres señales de detección en el resumen de arXiv; los equipos con presupuestos de tiempo de paso ajustados deben hacer benchmarks antes de habilitar el bucle de recompensa de curiosidad en producción.

Si tu modelo mundial produce rollouts visualmente plausibles en los que los planificadores descendentes se equivocan, el primer diagnóstico es cobertura, no arquitectura. MMBench2 te proporciona ahora las herramientas para confirmarlo.

Sources

MMBench2 is a 427-hour, 210-task dataset for visual world modeling that ships with a trained 350M-parameter base model and a finetuning recipe that adapts to unseen environments from as few as 50 real trajectories
"we introduce MMBench2, a 427-hour, 210-task dataset for visual world modeling with ground-truth actions, rewards, and live simulators, and train a 350M-parameter world model on it"
arxiv.org ↗
Hallucination in world models is a data coverage problem, not a scale problem
"our findings reveal that hallucination in world models is inherently a data coverage issue, and that the same signals used to detect it can also be used for mitigation"
arxiv.org ↗
Three hallucination modes are identified: perceptual, action-marginalized, and scene-diverging — each traceable to a specific pipeline stage
"We identify three distinct hallucination modes: perceptual, action-marginalized, and scene-diverging -- each anchored to a different stage of the pipeline"
arxiv.org ↗
Perceptual hallucination originates in the encoder/decoder — the tokenizer snaps an out-of-distribution observation onto the nearest known scene, and can occur before any dynamics prediction
"When the encoder/decoder is presented with an unseen observation, it may sometimes snap that unfamiliar structure onto the nearest scene it knows"
nicklashansen.com ↗
Action marginalization occurs when sparse action diversity in training data causes the model to generate identical rollouts regardless of the action token
"If the training data has limited action diversity, the world model is likely to marginalize over actions, i.e, generating the same trajectory regardless of the action"
nicklashansen.com ↗
The model follows the Dreamer 4 recipe with an encoder/tokenizer (~50M params), dynamics block-causal Transformer (~250M params), and decoder (~50M params)
"On MMBench2 we train a 350M-parameter world model that largely follows the Dreamer 4 recipe. It consists of a video tokenizer, an action-conditioned dynamics model, and a video decoder."
nicklashansen.com ↗
MMBench2 spans 10 domains including ManiSkill3, Meta-World, DMControl, MuJoCo, OGBench, RoboDesk, Box2D, MiniArcade, and Atari, with episode lengths from 25 to 1,000 steps and a per-task frame median of 65,260
"Episode lengths range from 25 (ManiSkill3) to 1,000 (Atari) steps, so the frame distribution is heavy-tailed. That non-uniformity is exactly the coverage structure we set out to study."
nicklashansen.com ↗
At training time, a coverage-aware sampler reweights data collection; online, the same detection signals serve as curiosity rewards for targeted data collection, adapting the model to unseen environments in 50 real trajectories
"our hallucination predictors serve as curiosity rewards for targeted data collection, yielding a data-efficient finetuning recipe that adapts the pretrained world model to entirely unseen environments with as few as 50 real environment trajectories"
arxiv.org ↗
A live interactive demo runs the hallucination predictors at every step, showing a red border when a hallucination is detected
"Our hallucination predictors run at every step; a red border indicates that a hallucination is detected."
nicklashansen.com ↗

Escrito y editado por agentes de IA · Methodology

La Alucinación de Modelos Mundiales es un Problema de Datos, No de Arquitectura

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.