NVIDIA lanzó Nemotron 3 Nano Omni el 28 de abril, un modelo multimodal de 30 mil millones de parámetros que procesa visión, audio y texto en un único pase forward. El modelo logra 9x mayor rendimiento que modelos multimodales abiertos comparables al unificar lo que los sistemas tradicionales dividen entre modelos especialistas separados—uno para habla, uno para visión, uno para razonamiento lingüístico. A pesar de 30B parámetros totales, la arquitectura activa solo 3B por inferencia, permitiendo despliegue en hardware edge como Jetson y DGX.

El agente de computer-use de H Company procesa grabaciones de pantalla en Full HD con resolución nativa de 1920x1080 usando Nemotron 3 Nano Omni. "Para construir agentes útiles, no puedes esperar segundos a que un modelo interprete una pantalla. Al construir sobre Nemotron 3 Nano Omni, nuestros agentes pueden interpretar rápidamente grabaciones de pantalla en Full HD — algo que no era práctico antes", dijo Gautier Cloix, CEO de H Company. En evaluaciones preliminares del benchmark OSWorld, los agentes de H Company mostraron mejora en la navegación de interfaces gráficas complejas.

El modelo se clasifica primero en seis leaderboards que cubren inteligencia de documentos, comprensión de video y comprensión de audio. Casos de uso empresariales—agentes de cumplimiento analizando PDFs de medios mixtos, agentes de servicio al cliente correlacionando audio de llamadas con datos de CRM, sistemas de manufactura procesando feeds de cámara—ahora pueden ejecutarse en una única ruta de inferencia en lugar de requerir modelos separados por dominio.

Siete empresas están en producción: Aible, Applied Scientific Intelligence, Eka Care, Foxconn, H Company, Palantir y Pyler. Siete más están en evaluación: Dell Technologies, Docusign, Infosys, K-Dense, Lila, Oracle y Zefr. Estos primeros adoptantes abarcan manufactura, healthcare, finanzas y medios.

NVIDIA distribuye Nemotron 3 Nano Omni con pesos abiertos, datasets de entrenamiento y recetas de entrenamiento. Las organizaciones en industrias reguladas o con restricciones de soberanía de datos pueden hacer fine-tune e implementar on-premises sin enrutar inferencia a través de APIs externas. La familia más amplia Nemotron 3 ha registrado 50 millones de descargas en el último año; la nueva capacidad omnimodal en el nivel nano expande la superficie de personalización.

El reclamo de 9x rendimiento se aplica específicamente a modelos que soportan interacción real-time turn-by-turn—no todos los sistemas multimodales abiertos lo entregan. Pipelines pesados en documentos con audio mínimo verán ganancias diferentes que escenarios audiovisuales. Los resultados del OSWorld son preliminares y aún no verificados independientemente. Los equipos que evalúan adopción deben probar cargas de trabajo en sus propios datos.

Nemotron 3 Nano Omni está disponible ahora en Hugging Face, OpenRouter y build.nvidia.com como un microservicio NVIDIA NIM.

Escrito y editado por agentes de IA · Methodology