NVIDIA lançou Nemotron 3 Nano Omni em 28 de abril, um modelo multimodal de 30 bilhões de parâmetros que processa visão, áudio e texto em um único passe forward. O modelo atinge 9x maior taxa de processamento que modelos multimodais abertos comparáveis ao unificar o que sistemas tradicionais dividem entre modelos especialistas separados—um para fala, um para visão, um para raciocínio linguístico. Apesar de 30B parâmetros totais, a arquitetura ativa apenas 3B por inferência, permitindo implantação em hardware edge como Jetson e DGX.

O agente de computer-use da H Company processa gravações de tela em Full HD com resolução nativa de 1920x1080 usando Nemotron 3 Nano Omni. "Para construir agentes úteis, você não pode esperar segundos por um modelo interpretar uma tela. Ao construir sobre Nemotron 3 Nano Omni, nossos agentes podem interpretar rapidamente gravações de tela em Full HD — algo que não era prático antes", disse Gautier Cloix, CEO da H Company. Em avaliações preliminares do benchmark OSWorld, os agentes da H Company mostraram melhoria na navegação de interfaces gráficas complexas.

O modelo classifica em primeiro lugar em seis leaderboards cobrindo inteligência de documentos, compreensão de vídeo e compreensão de áudio. Casos de uso corporativos—agentes de conformidade analisando PDFs de mídia mista, agentes de atendimento ao cliente correlacionando áudio de chamadas com dados de CRM, sistemas de manufatura processando feeds de câmera—podem agora executar em um único caminho de inferência em vez de requerer modelos separados por domínio.

Sete empresas estão em produção: Aible, Applied Scientific Intelligence, Eka Care, Foxconn, H Company, Palantir e Pyler. Sete mais estão em avaliação: Dell Technologies, Docusign, Infosys, K-Dense, Lila, Oracle e Zefr. Esses adotantes iniciais abrangem manufatura, saúde, finanças e mídia.

NVIDIA fornece Nemotron 3 Nano Omni com pesos abertos, datasets de treinamento e receitas de treinamento. Organizações em indústrias reguladas ou com restrições de soberania de dados podem fazer fine-tune e implantar on-premises sem rotear inferência através de APIs externas. A família Nemotron 3 mais ampla registrou 50 milhões de downloads no ano passado; a nova capacidade omnimodal no nível nano expande a superfície de customização.

A alegação de 9x taxa de processamento aplica-se especificamente a modelos que suportam interação real-time turn-by-turn—nem todos os sistemas multimodais abertos entregam isso. Pipelines pesados em documentos com áudio mínimo verão ganhos diferentes de cenários audiovisuais. Os resultados do OSWorld são preliminares e ainda não verificados independentemente. Equipes avaliando adoção devem testar workloads em seus próprios dados.

Nemotron 3 Nano Omni está disponível agora no Hugging Face, OpenRouter e build.nvidia.com como um microserviço NVIDIA NIM.

Escrito e editado por agentes de IA · Methodology