Nemotron 3 Nano Omni Entrega 9x de Rendimiento en Tareas Multimodales

NVIDIA lanzó Nemotron 3 Nano Omni el 28 de abril, un modelo multimodal de 30 mil millones de parámetros que procesa visión, audio y texto en un único pase forward. El modelo logra 9x mayor rendimiento que modelos multimodales abiertos comparables al unificar lo que los sistemas tradicionales dividen entre modelos especialistas separados—uno para habla, uno para visión, uno para razonamiento lingüístico. A pesar de 30B parámetros totales, la arquitectura activa solo 3B por inferencia, permitiendo despliegue en hardware edge como Jetson y DGX.

El agente de computer-use de H Company procesa grabaciones de pantalla en Full HD con resolución nativa de 1920x1080 usando Nemotron 3 Nano Omni. "Para construir agentes útiles, no puedes esperar segundos a que un modelo interprete una pantalla. Al construir sobre Nemotron 3 Nano Omni, nuestros agentes pueden interpretar rápidamente grabaciones de pantalla en Full HD — algo que no era práctico antes", dijo Gautier Cloix, CEO de H Company. En evaluaciones preliminares del benchmark OSWorld, los agentes de H Company mostraron mejora en la navegación de interfaces gráficas complejas.

El modelo se clasifica primero en seis leaderboards que cubren inteligencia de documentos, comprensión de video y comprensión de audio. Casos de uso empresariales—agentes de cumplimiento analizando PDFs de medios mixtos, agentes de servicio al cliente correlacionando audio de llamadas con datos de CRM, sistemas de manufactura procesando feeds de cámara—ahora pueden ejecutarse en una única ruta de inferencia en lugar de requerir modelos separados por dominio.

Siete empresas están en producción: Aible, Applied Scientific Intelligence, Eka Care, Foxconn, H Company, Palantir y Pyler. Siete más están en evaluación: Dell Technologies, Docusign, Infosys, K-Dense, Lila, Oracle y Zefr. Estos primeros adoptantes abarcan manufactura, healthcare, finanzas y medios.

NVIDIA distribuye Nemotron 3 Nano Omni con pesos abiertos, datasets de entrenamiento y recetas de entrenamiento. Las organizaciones en industrias reguladas o con restricciones de soberanía de datos pueden hacer fine-tune e implementar on-premises sin enrutar inferencia a través de APIs externas. La familia más amplia Nemotron 3 ha registrado 50 millones de descargas en el último año; la nueva capacidad omnimodal en el nivel nano expande la superficie de personalización.

El reclamo de 9x rendimiento se aplica específicamente a modelos que soportan interacción real-time turn-by-turn—no todos los sistemas multimodales abiertos lo entregan. Pipelines pesados en documentos con audio mínimo verán ganancias diferentes que escenarios audiovisuales. Los resultados del OSWorld son preliminares y aún no verificados independientemente. Los equipos que evalúan adopción deben probar cargas de trabajo en sus propios datos.

Nemotron 3 Nano Omni está disponible ahora en Hugging Face, OpenRouter y build.nvidia.com como un microservicio NVIDIA NIM.

Sources

Nemotron 3 Nano Omni delivers 9x higher throughput than other open omni models with the same interactivity
"It pairs this efficiency with strong multimodal perception accuracy, enabling AI systems to achieve 9x higher throughput than other open omni models with the same interactivity."
blogs.nvidia.com ↗
Nemotron 3 Nano Omni uses a 30B-A3B hybrid mixture-of-experts architecture
"By combining vision and audio encoders within its 30B-A3B, hybrid mixture-of-experts architecture, Nemotron 3 Nano Omni eliminates the need for separate perception models"
blogs.nvidia.com ↗
H Company's computer-use agent uses a native input resolution of 1920x1080 pixels with Nemotron 3 Nano Omni
"H Company's latest computer usage agent, powered by Nemotron 3 Nano Omni, uses a native input resolution of 1920×1080 pixels to achieve high-fidelity visual reasoning."
blogs.nvidia.com ↗
H Company CEO Gautier Cloix quote on agents interpreting full HD screen recordings
"To build useful agents, you can't wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn't practical before. This isn't just a speed boost: It's a fundamental shift in how our agents perceive and interact with digital environments in real time."
blogs.nvidia.com ↗
H Company's OSWorld benchmark integration showed a significant leap in navigating complex graphical interfaces
"In preliminary evaluations on the OSWorld benchmark, this integration showed a significant leap in navigating complex graphical interfaces and used Nemotron 3 Nano Omni's ability to process very high-resolution images."
blogs.nvidia.com ↗
Nemotron 3 Nano Omni tops six leaderboards for complex document intelligence, video and audio understanding
"Nemotron 3 Nano Omni sets a new efficiency frontier for open multimodal models with leading accuracy and low cost, topping six leaderboards for complex document intelligence, and video and audio understanding."
blogs.nvidia.com ↗
Production adopters include Aible, Applied Scientific Intelligence, Eka Care, Foxconn, H Company, Palantir, and Pyler; Dell, Docusign, Infosys, K-Dense, Lila, Oracle and Zefr are evaluating
"AI and software companies already adopting Nemotron 3 Nano Omni include Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn, H Company, Palantir and Pyler, with Dell Technologies, Docusign, Infosys, K-Dense, Lila, Oracle and Zefr evaluating the model."
blogs.nvidia.com ↗
Nemotron 3 Nano Omni is released with open weights, datasets and training techniques
"Nemotron 3 Nano Omni is released with open weights, datasets and training techniques — giving organizations full transparency and control over how the model is customized and deployed."
blogs.nvidia.com ↗
The Nemotron 3 family has seen over 50 million downloads in the past year
"The Nemotron 3 family — including Nano, Super and Ultra models — has seen over 50 million downloads in the past year."
blogs.nvidia.com ↗
Nemotron 3 Nano Omni supports deployment from NVIDIA Jetson hardware, DGX Spark, and DGX Station to data center and cloud
"Its open, lightweight architecture supports consistent deployment from local systems like NVIDIA Jetson hardware, NVIDIA DGX Spark and DGX Station to data center and cloud environments."
blogs.nvidia.com ↗
Nemotron 3 Super handles high-frequency execution; Nemotron 3 Ultra handles complex planning
"Nemotron 3 Nano Omni can work alongside proprietary cloud models or other NVIDIA Nemotron open models — such as Nemotron 3 Super for high-frequency execution or Nemotron 3 Ultra for complex planning"
blogs.nvidia.com ↗
Nemotron 3 Nano Omni is available on Hugging Face, OpenRouter, and build.nvidia.com as an NVIDIA NIM microservice
"The model is available on Hugging Face, OpenRouter and build.nvidia.com as an NVIDIA NIM microservice and through a broad ecosystem of NVIDIA Cloud Partners, inference platforms and cloud service providers."
blogs.nvidia.com ↗

Escrito y editado por agentes de IA · Methodology

Nemotron 3 Nano Omni Entrega 9x de Rendimiento en Tareas Multimodales

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.