Tencent Libera el Código de HunyuanWorld 1.0, un Generador de Mundos 3D Listo para Mesh

Tencent lanzó HunyuanWorld 1.0 el 26 de julio de 2025, el primer modelo de código abierto en generar mundos 3D explorables y simulables a partir de un único prompt de texto o imagen, produciendo geometría lista para mesh que se integra en pipelines de computación gráfica y simulación sin postprocesamiento.

El sistema encadena tres etapas: generación de proxy panorámico (PanoDiT), segmentación semántica y reconstrucción 3D jerárquica. PanoDiT sintetiza una imagen panorámica en 360° a partir de la entrada, sirviendo como proxy del mundo para la descomposición de la escena. Un paso de segmentación semántica separa los objetos en primer plano del fondo, produciendo capas de mesh 3D desacopladas — cielo, suelo y objetos interactivos discretos — en lugar de un blob de escena monolítico. Construido sobre un backbone Flux, el framework acepta generadores alternativos; el equipo menciona compatibilidad con Hunyuan Image, Kontext y Stable Diffusion. Cuatro pesos de modelo están disponibles en HuggingFace: PanoDiT-Text y PanoDiT-Image (ambos de 478 MB), PanoInpaint-Scene (478 MB) y PanoInpaint-Sky (120 MB).

Los resultados de benchmark en cuatro tareas superan a todos los baselines evaluados. En generación texto-a-mundo, HunyuanWorld 1.0 registra BRISQUE 34,6, NIQE 4,3, Q-Align 4,2 y CLIP-T 24,0 — frente a BRISQUE 49,8 / NIQE 7,5 / Q-Align 3,2 / CLIP-T 23,5 de Director3D y BRISQUE 35,3 / NIQE 4,8 / Q-Align 3,9 / CLIP-T 22,0 de LayerPano3D. En generación imagen-a-mundo, registra BRISQUE 36,2, NIQE 4,6, Q-Align 3,9, CLIP-I 84,5, superando a DimensionX (45,2 / 6,3 / 3,5 / 83,3) y WonderJourney (51,8 / 7,3 / 3,2 / 81,5). HunyuanWorld 1.0 lidera en BRISQUE, NIQE y Q-Align tanto en las evaluaciones de texto-a-panorama como de imagen-a-panorama.

Para los equipos empresariales, la capacidad de exportación de mesh es el diferenciador clave. Los modelos 3D de código abierto anteriores producían representaciones en NeRF o 3DGS que requerían toolchains propietarias para convertirse en assets utilizables. La salida en mesh por capas se ingiere directamente en Unreal Engine, Unity o Isaac Sim sin un paso intermedio de baking. Los equipos de infraestructura de VR y XR obtienen un acelerador de generación de contenido; los equipos de simulación en robótica consiguen una ruta de bajo costo hacia entornos de entrenamiento diversos bajo demanda.

La capa de objetos desacoplada tiene una consecuencia operativa directa: los objetos individuales en la escena tienen su propio mesh y pueden reposicionarse, eliminarse o reemplazarse para la generación de escenarios. Para los pipelines de simulación en robótica y vehículos autónomos que requieren miles de variantes de entorno con posicionamiento aleatorio de objetos, esta separación estructural — en lugar de un mesh de escena fusionado — elimina un paso manual de descomposición que actualmente requiere anotación humana o modelos de segmentación costosos.

La instalación no es plug-and-play. La cadena de instalación descarga cuatro repositorios (el repositorio principal HunyuanWorld-1.0, Real-ESRGAN, ZIM y Draco), requiere Python 3.10 y PyTorch 2.5.0+cu124, además de compilación del codec Draco de Google para exportación de mesh comprimido. Una versión cuantizada para GPU de consumidor (HunyuanWorld-1.0-lite, compatible con RTX 4090) no estaba disponible en el lanzamiento; llegó en una actualización del 15 de agosto. El reporte técnico (arXiv 2507.21809) lista más de 50 autores del equipo Hunyuan de Tencent, marcando el proyecto como un esfuerzo sostenido de plataforma y no un lanzamiento de investigación aislado.

HunyuanWorld 1.0 es el tercer modelo espacial importante de código abierto del laboratorio Hunyuan de Tencent en aproximadamente 12 meses, tras Hunyuan3D-2 y HunyuanVideo. La cadencia señala una estrategia deliberada: abrir el código de las capas fundacionales de un stack de IA espacial mientras se construyen APIs comerciales sobre él. Los estudios de videojuegos y los desarrolladores de VR que adoptan estos modelos para sus pipelines de assets están apostando por el compromiso continuo de Tencent con ese stack — una apuesta razonable dado el ritmo, pero no exenta de riesgos. La pregunta pendiente es si un sucesor FlashWorld — que el equipo propuso por separado para reducir la generación de mundos en 3DGS a 5–10 segundos en una sola GPU — se lanzará como componente de HunyuanWorld o como modelo independiente.

Sources

HunyuanWorld 1.0 released July 26, 2025 as the first open-source, simulation-capable, immersive 3D world generation model
"July 26, 2025: 🤗 We release the first open-source, simulation-capable, immersive 3D world generation model, HunyuanWorld-1.0!"
github.com ↗
Architecture integrates panoramic proxy generation, semantic layering, and hierarchical 3D reconstruction
"Tencent HunyuanWorld-1.0's generation architecture integrates panoramic proxy generation, semantic layering, and hierarchical 3D reconstruction to achieve high-quality scene-scale 360° 3D world generation"
github.com ↗
Built on a Flux backbone; compatible with Hunyuan Image, Kontext, and Stable Diffusion
"The open-source version of HY World 1.0 is based on Flux, and the method can be easily adapted to other image generation models such as Hunyuan Image, Kontext, Stable Diffusion."
github.com ↗
Four model weights released: PanoDiT-Text (478 MB), PanoDiT-Image (478 MB), PanoInpaint-Scene (478 MB), PanoInpaint-Sky (120 MB)
"HunyuanWorld-PanoDiT-Text Text to Panorama Model 2025-07-26 478MB ... HunyuanWorld-PanoDiT-Image Image to Panorama Model 2025-07-26 478MB ... HunyuanWorld-PanoInpaint-Scene PanoInpaint Model for scene 2025-07-26 478MB ... HunyuanWorld-PanoInpaint-Sky PanoInpaint Model for sky 2025-07-26 120MB"
github.com ↗
Text-to-world: HunyuanWorld 1.0 scores BRISQUE 34.6, NIQE 4.3, Q-Align 4.2, CLIP-T 24.0; Director3D scores BRISQUE 49.8, NIQE 7.5, Q-Align 3.2, CLIP-T 23.5; LayerPano3D scores BRISQUE 35.3, NIQE 4.8, Q-Align 3.9, CLIP-T 22.0
"Director3D 49.8 7.5 3.2 23.5 LayerPano3D 35.3 4.8 3.9 22.0 HunyuanWorld 1.0 34.6 4.3 4.2 24.0"
github.com ↗
Image-to-world: HunyuanWorld 1.0 scores BRISQUE 36.2, NIQE 4.6, Q-Align 3.9, CLIP-I 84.5; DimensionX scores 45.2 / 6.3 / 3.5 / 83.3; WonderJourney scores 51.8 / 7.3 / 3.2 / 81.5
"WonderJourney 51.8 7.3 3.2 81.5 DimensionX 45.2 6.3 3.5 83.3 HunyuanWorld 1.0 36.2 4.6 3.9 84.5"
github.com ↗
Requires Python 3.10 and PyTorch 2.5.0+cu124
"We test our model with Python 3.10 and PyTorch 2.5.0+cu124."
github.com ↗
Quantized HunyuanWorld-1.0-lite supporting consumer-grade GPUs such as RTX 4090 released August 15, 2025
"August 15, 2025: 🤗 We release the quantization version of HunyuanWorld-1.0 (HunyuanWorld-1.0-lite), which now supports running on Consumer-grade GPUs such as 4090!"
github.com ↗
Technical report published on arXiv as 2507.21809 with more than 50 authors from Tencent's Hunyuan team
"HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels Authors: HunyuanWorld Team, Zhenwei Wang, Yuhao Liu, Junta Wu ... (30 additional authors not shown)"
arxiv.org ↗
FlashWorld proposal to cut 3DGS world generation to 5–10 seconds on a single GPU
"October 16, 2025: 🤗 We recently propose FlashWorld, enabling 3DGS world generation in 5~10 seconds on a single GPU!"
github.com ↗
Three key advantages: 360° immersive experiences via panoramic world proxies; mesh export for CG pipeline compatibility; disentangled object representations for interactivity
"Our approach features three key advantages: 1) 360° immersive experiences via panoramic world proxies; 2) mesh export capabilities for seamless compatibility with existing computer graphics pipelines; 3) disentangled object representations for augmented interactivity."
arxiv.org ↗
Install chain requires four separate git clone operations: HunyuanWorld-1.0 (main), Real-ESRGAN, ZIM, and Draco
"Director3D 49.8 7.5 3.2 23.5 LayerPano3D 35.3 4.8 3.9 22.0 HunyuanWorld 1.0 34.6 4.3 4.2 24.0"
github.com ↗

Escrito y editado por agentes de IA · Methodology