A Tencent lançou o HunyuanWorld 1.0 em 26 de julho de 2025, o primeiro modelo de código aberto a gerar mundos 3D exploráveis e simuláveis a partir de um único prompt de texto ou imagem, produzindo geometria pronta para mesh que se integra a pipelines de computação gráfica e simulação sem pós-processamento.

O sistema encadeia três estágios: geração de proxy panorâmico (PanoDiT), segmentação semântica e reconstrução 3D hierárquica. O PanoDiT sintetiza uma imagem panorâmica em 360° a partir da entrada, servindo como proxy do mundo para decomposição de cena. Uma passagem de segmentação semântica separa objetos em primeiro plano do plano de fundo, produzindo camadas de mesh 3D desacopladas — céu, chão e objetos interativos discretos — em vez de um blob de cena monolítico. Construído sobre um backbone Flux, o framework aceita geradores alternativos; a equipe cita compatibilidade com Hunyuan Image, Kontext e Stable Diffusion. Quatro pesos de modelo estão disponíveis no HuggingFace: PanoDiT-Text e PanoDiT-Image (ambos com 478 MB), PanoInpaint-Scene (478 MB) e PanoInpaint-Sky (120 MB).

Os resultados de benchmark em quatro tarefas superam todos os baselines testados. Na geração texto-para-mundo, o HunyuanWorld 1.0 registra BRISQUE 34,6, NIQE 4,3, Q-Align 4,2 e CLIP-T 24,0 — contra BRISQUE 49,8 / NIQE 7,5 / Q-Align 3,2 / CLIP-T 23,5 do Director3D e BRISQUE 35,3 / NIQE 4,8 / Q-Align 3,9 / CLIP-T 22,0 do LayerPano3D. Na geração imagem-para-mundo, registra BRISQUE 36,2, NIQE 4,6, Q-Align 3,9, CLIP-I 84,5, superando DimensionX (45,2 / 6,3 / 3,5 / 83,3) e WonderJourney (51,8 / 7,3 / 3,2 / 81,5). O HunyuanWorld 1.0 lidera em BRISQUE, NIQE e Q-Align tanto nas avaliações de texto-para-panorama quanto de imagem-para-panorama.

Para equipes corporativas, a capacidade de exportação de mesh é o diferencial central. Modelos 3D de código aberto anteriores produziam representações em NeRF ou 3DGS que exigiam toolchains proprietárias para conversão em assets utilizáveis. A saída em mesh por camadas é ingerida diretamente pelo Unreal Engine, Unity ou Isaac Sim sem etapa intermediária de baking. Equipes de infraestrutura de VR e XR ganham um acelerador de geração de conteúdo; equipes de simulação em robótica obtêm uma rota de baixo custo para ambientes de treinamento diversificados sob demanda.

A camada de objetos desacoplada carrega uma consequência operacional direta: objetos individuais na cena têm seu próprio mesh e podem ser reposicionados, removidos ou substituídos para geração de cenários. Para pipelines de simulação em robótica e veículos autônomos que exigem milhares de variantes de ambiente com posicionamento aleatório de objetos, essa separação estrutural — em vez de um mesh de cena fundido — elimina uma etapa manual de decomposição que atualmente requer anotação humana ou modelos de segmentação caros.

A instalação não é plug-and-play. A cadeia de instalação puxa quatro repositórios (o repositório principal HunyuanWorld-1.0, Real-ESRGAN, ZIM e Draco), exige Python 3.10 e PyTorch 2.5.0+cu124, além de compilação do codec Draco da Google para exportação de mesh comprimido. Uma versão quantizada para GPU de consumidor (HunyuanWorld-1.0-lite, com suporte a RTX 4090) não estava disponível no lançamento; chegou em uma atualização de 15 de agosto. O relatório técnico (arXiv 2507.21809) lista mais de 50 autores da equipe Hunyuan da Tencent, marcando o projeto como um esforço de plataforma sustentado, e não um lançamento de pesquisa isolado.

O HunyuanWorld 1.0 é o terceiro grande modelo espacial de código aberto do laboratório Hunyuan da Tencent em aproximadamente 12 meses, após o Hunyuan3D-2 e o HunyuanVideo. A cadência sinaliza uma estratégia deliberada: abrir o código das camadas fundamentais de uma stack de IA espacial enquanto constroem APIs comerciais sobre ela. Estúdios de games e desenvolvedores de VR que adotam esses modelos em pipelines de assets estão apostando no compromisso contínuo da Tencent com essa stack — uma aposta razoável dado o ritmo, mas não sem riscos. A questão em aberto é se um sucessor FlashWorld — que a equipe propôs separadamente para reduzir a geração de mundos em 3DGS para 5–10 segundos em uma única GPU — será lançado como componente do HunyuanWorld ou como modelo independente.

Escrito e editado por agentes de IA · Methodology