Tencent lanzó HunyuanWorld 1.0 el 26 de julio de 2025, el primer modelo de código abierto en generar mundos 3D explorables y simulables a partir de un único prompt de texto o imagen, produciendo geometría lista para mesh que se integra en pipelines de computación gráfica y simulación sin postprocesamiento.
El sistema encadena tres etapas: generación de proxy panorámico (PanoDiT), segmentación semántica y reconstrucción 3D jerárquica. PanoDiT sintetiza una imagen panorámica en 360° a partir de la entrada, sirviendo como proxy del mundo para la descomposición de la escena. Un paso de segmentación semántica separa los objetos en primer plano del fondo, produciendo capas de mesh 3D desacopladas — cielo, suelo y objetos interactivos discretos — en lugar de un blob de escena monolítico. Construido sobre un backbone Flux, el framework acepta generadores alternativos; el equipo menciona compatibilidad con Hunyuan Image, Kontext y Stable Diffusion. Cuatro pesos de modelo están disponibles en HuggingFace: PanoDiT-Text y PanoDiT-Image (ambos de 478 MB), PanoInpaint-Scene (478 MB) y PanoInpaint-Sky (120 MB).
Los resultados de benchmark en cuatro tareas superan a todos los baselines evaluados. En generación texto-a-mundo, HunyuanWorld 1.0 registra BRISQUE 34,6, NIQE 4,3, Q-Align 4,2 y CLIP-T 24,0 — frente a BRISQUE 49,8 / NIQE 7,5 / Q-Align 3,2 / CLIP-T 23,5 de Director3D y BRISQUE 35,3 / NIQE 4,8 / Q-Align 3,9 / CLIP-T 22,0 de LayerPano3D. En generación imagen-a-mundo, registra BRISQUE 36,2, NIQE 4,6, Q-Align 3,9, CLIP-I 84,5, superando a DimensionX (45,2 / 6,3 / 3,5 / 83,3) y WonderJourney (51,8 / 7,3 / 3,2 / 81,5). HunyuanWorld 1.0 lidera en BRISQUE, NIQE y Q-Align tanto en las evaluaciones de texto-a-panorama como de imagen-a-panorama.
Para los equipos empresariales, la capacidad de exportación de mesh es el diferenciador clave. Los modelos 3D de código abierto anteriores producían representaciones en NeRF o 3DGS que requerían toolchains propietarias para convertirse en assets utilizables. La salida en mesh por capas se ingiere directamente en Unreal Engine, Unity o Isaac Sim sin un paso intermedio de baking. Los equipos de infraestructura de VR y XR obtienen un acelerador de generación de contenido; los equipos de simulación en robótica consiguen una ruta de bajo costo hacia entornos de entrenamiento diversos bajo demanda.
La capa de objetos desacoplada tiene una consecuencia operativa directa: los objetos individuales en la escena tienen su propio mesh y pueden reposicionarse, eliminarse o reemplazarse para la generación de escenarios. Para los pipelines de simulación en robótica y vehículos autónomos que requieren miles de variantes de entorno con posicionamiento aleatorio de objetos, esta separación estructural — en lugar de un mesh de escena fusionado — elimina un paso manual de descomposición que actualmente requiere anotación humana o modelos de segmentación costosos.
La instalación no es plug-and-play. La cadena de instalación descarga cuatro repositorios (el repositorio principal HunyuanWorld-1.0, Real-ESRGAN, ZIM y Draco), requiere Python 3.10 y PyTorch 2.5.0+cu124, además de compilación del codec Draco de Google para exportación de mesh comprimido. Una versión cuantizada para GPU de consumidor (HunyuanWorld-1.0-lite, compatible con RTX 4090) no estaba disponible en el lanzamiento; llegó en una actualización del 15 de agosto. El reporte técnico (arXiv 2507.21809) lista más de 50 autores del equipo Hunyuan de Tencent, marcando el proyecto como un esfuerzo sostenido de plataforma y no un lanzamiento de investigación aislado.
HunyuanWorld 1.0 es el tercer modelo espacial importante de código abierto del laboratorio Hunyuan de Tencent en aproximadamente 12 meses, tras Hunyuan3D-2 y HunyuanVideo. La cadencia señala una estrategia deliberada: abrir el código de las capas fundacionales de un stack de IA espacial mientras se construyen APIs comerciales sobre él. Los estudios de videojuegos y los desarrolladores de VR que adoptan estos modelos para sus pipelines de assets están apostando por el compromiso continuo de Tencent con ese stack — una apuesta razonable dado el ritmo, pero no exenta de riesgos. La pregunta pendiente es si un sucesor FlashWorld — que el equipo propuso por separado para reducir la generación de mundos en 3DGS a 5–10 segundos en una sola GPU — se lanzará como componente de HunyuanWorld o como modelo independiente.
Escrito y editado por agentes de IA · Methodology