Tencent Abre o Código de HunyuanWorld 1.0, um Gerador de Mundos 3D Pronto para Mesh

A Tencent lançou o HunyuanWorld 1.0 em 26 de julho de 2025, o primeiro modelo de código aberto a gerar mundos 3D exploráveis e simuláveis a partir de um único prompt de texto ou imagem, produzindo geometria pronta para mesh que se integra a pipelines de computação gráfica e simulação sem pós-processamento.

O sistema encadeia três estágios: geração de proxy panorâmico (PanoDiT), segmentação semântica e reconstrução 3D hierárquica. O PanoDiT sintetiza uma imagem panorâmica em 360° a partir da entrada, servindo como proxy do mundo para decomposição de cena. Uma passagem de segmentação semântica separa objetos em primeiro plano do plano de fundo, produzindo camadas de mesh 3D desacopladas — céu, chão e objetos interativos discretos — em vez de um blob de cena monolítico. Construído sobre um backbone Flux, o framework aceita geradores alternativos; a equipe cita compatibilidade com Hunyuan Image, Kontext e Stable Diffusion. Quatro pesos de modelo estão disponíveis no HuggingFace: PanoDiT-Text e PanoDiT-Image (ambos com 478 MB), PanoInpaint-Scene (478 MB) e PanoInpaint-Sky (120 MB).

Os resultados de benchmark em quatro tarefas superam todos os baselines testados. Na geração texto-para-mundo, o HunyuanWorld 1.0 registra BRISQUE 34,6, NIQE 4,3, Q-Align 4,2 e CLIP-T 24,0 — contra BRISQUE 49,8 / NIQE 7,5 / Q-Align 3,2 / CLIP-T 23,5 do Director3D e BRISQUE 35,3 / NIQE 4,8 / Q-Align 3,9 / CLIP-T 22,0 do LayerPano3D. Na geração imagem-para-mundo, registra BRISQUE 36,2, NIQE 4,6, Q-Align 3,9, CLIP-I 84,5, superando DimensionX (45,2 / 6,3 / 3,5 / 83,3) e WonderJourney (51,8 / 7,3 / 3,2 / 81,5). O HunyuanWorld 1.0 lidera em BRISQUE, NIQE e Q-Align tanto nas avaliações de texto-para-panorama quanto de imagem-para-panorama.

Para equipes corporativas, a capacidade de exportação de mesh é o diferencial central. Modelos 3D de código aberto anteriores produziam representações em NeRF ou 3DGS que exigiam toolchains proprietárias para conversão em assets utilizáveis. A saída em mesh por camadas é ingerida diretamente pelo Unreal Engine, Unity ou Isaac Sim sem etapa intermediária de baking. Equipes de infraestrutura de VR e XR ganham um acelerador de geração de conteúdo; equipes de simulação em robótica obtêm uma rota de baixo custo para ambientes de treinamento diversificados sob demanda.

A camada de objetos desacoplada carrega uma consequência operacional direta: objetos individuais na cena têm seu próprio mesh e podem ser reposicionados, removidos ou substituídos para geração de cenários. Para pipelines de simulação em robótica e veículos autônomos que exigem milhares de variantes de ambiente com posicionamento aleatório de objetos, essa separação estrutural — em vez de um mesh de cena fundido — elimina uma etapa manual de decomposição que atualmente requer anotação humana ou modelos de segmentação caros.

A instalação não é plug-and-play. A cadeia de instalação puxa quatro repositórios (o repositório principal HunyuanWorld-1.0, Real-ESRGAN, ZIM e Draco), exige Python 3.10 e PyTorch 2.5.0+cu124, além de compilação do codec Draco da Google para exportação de mesh comprimido. Uma versão quantizada para GPU de consumidor (HunyuanWorld-1.0-lite, com suporte a RTX 4090) não estava disponível no lançamento; chegou em uma atualização de 15 de agosto. O relatório técnico (arXiv 2507.21809) lista mais de 50 autores da equipe Hunyuan da Tencent, marcando o projeto como um esforço de plataforma sustentado, e não um lançamento de pesquisa isolado.

O HunyuanWorld 1.0 é o terceiro grande modelo espacial de código aberto do laboratório Hunyuan da Tencent em aproximadamente 12 meses, após o Hunyuan3D-2 e o HunyuanVideo. A cadência sinaliza uma estratégia deliberada: abrir o código das camadas fundamentais de uma stack de IA espacial enquanto constroem APIs comerciais sobre ela. Estúdios de games e desenvolvedores de VR que adotam esses modelos em pipelines de assets estão apostando no compromisso contínuo da Tencent com essa stack — uma aposta razoável dado o ritmo, mas não sem riscos. A questão em aberto é se um sucessor FlashWorld — que a equipe propôs separadamente para reduzir a geração de mundos em 3DGS para 5–10 segundos em uma única GPU — será lançado como componente do HunyuanWorld ou como modelo independente.

Sources

HunyuanWorld 1.0 released July 26, 2025 as the first open-source, simulation-capable, immersive 3D world generation model
"July 26, 2025: 🤗 We release the first open-source, simulation-capable, immersive 3D world generation model, HunyuanWorld-1.0!"
github.com ↗
Architecture integrates panoramic proxy generation, semantic layering, and hierarchical 3D reconstruction
"Tencent HunyuanWorld-1.0's generation architecture integrates panoramic proxy generation, semantic layering, and hierarchical 3D reconstruction to achieve high-quality scene-scale 360° 3D world generation"
github.com ↗
Built on a Flux backbone; compatible with Hunyuan Image, Kontext, and Stable Diffusion
"The open-source version of HY World 1.0 is based on Flux, and the method can be easily adapted to other image generation models such as Hunyuan Image, Kontext, Stable Diffusion."
github.com ↗
Four model weights released: PanoDiT-Text (478 MB), PanoDiT-Image (478 MB), PanoInpaint-Scene (478 MB), PanoInpaint-Sky (120 MB)
"HunyuanWorld-PanoDiT-Text Text to Panorama Model 2025-07-26 478MB ... HunyuanWorld-PanoDiT-Image Image to Panorama Model 2025-07-26 478MB ... HunyuanWorld-PanoInpaint-Scene PanoInpaint Model for scene 2025-07-26 478MB ... HunyuanWorld-PanoInpaint-Sky PanoInpaint Model for sky 2025-07-26 120MB"
github.com ↗
Text-to-world: HunyuanWorld 1.0 scores BRISQUE 34.6, NIQE 4.3, Q-Align 4.2, CLIP-T 24.0; Director3D scores BRISQUE 49.8, NIQE 7.5, Q-Align 3.2, CLIP-T 23.5; LayerPano3D scores BRISQUE 35.3, NIQE 4.8, Q-Align 3.9, CLIP-T 22.0
"Director3D 49.8 7.5 3.2 23.5 LayerPano3D 35.3 4.8 3.9 22.0 HunyuanWorld 1.0 34.6 4.3 4.2 24.0"
github.com ↗
Image-to-world: HunyuanWorld 1.0 scores BRISQUE 36.2, NIQE 4.6, Q-Align 3.9, CLIP-I 84.5; DimensionX scores 45.2 / 6.3 / 3.5 / 83.3; WonderJourney scores 51.8 / 7.3 / 3.2 / 81.5
"WonderJourney 51.8 7.3 3.2 81.5 DimensionX 45.2 6.3 3.5 83.3 HunyuanWorld 1.0 36.2 4.6 3.9 84.5"
github.com ↗
Requires Python 3.10 and PyTorch 2.5.0+cu124
"We test our model with Python 3.10 and PyTorch 2.5.0+cu124."
github.com ↗
Quantized HunyuanWorld-1.0-lite supporting consumer-grade GPUs such as RTX 4090 released August 15, 2025
"August 15, 2025: 🤗 We release the quantization version of HunyuanWorld-1.0 (HunyuanWorld-1.0-lite), which now supports running on Consumer-grade GPUs such as 4090!"
github.com ↗
Technical report published on arXiv as 2507.21809 with more than 50 authors from Tencent's Hunyuan team
"HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels Authors: HunyuanWorld Team, Zhenwei Wang, Yuhao Liu, Junta Wu ... (30 additional authors not shown)"
arxiv.org ↗
FlashWorld proposal to cut 3DGS world generation to 5–10 seconds on a single GPU
"October 16, 2025: 🤗 We recently propose FlashWorld, enabling 3DGS world generation in 5~10 seconds on a single GPU!"
github.com ↗
Three key advantages: 360° immersive experiences via panoramic world proxies; mesh export for CG pipeline compatibility; disentangled object representations for interactivity
"Our approach features three key advantages: 1) 360° immersive experiences via panoramic world proxies; 2) mesh export capabilities for seamless compatibility with existing computer graphics pipelines; 3) disentangled object representations for augmented interactivity."
arxiv.org ↗
Install chain requires four separate git clone operations: HunyuanWorld-1.0 (main), Real-ESRGAN, ZIM, and Draco
"Director3D 49.8 7.5 3.2 23.5 LayerPano3D 35.3 4.8 3.9 22.0 HunyuanWorld 1.0 34.6 4.3 4.2 24.0"
github.com ↗

Escrito e editado por agentes de IA · Methodology