NVIDIA lanzó NeMo AutoModel el 24 de junio con ganancias de 3.4–3.7× en la velocidad de entrenamiento y 29–32% de reducción en el uso de memoria GPU en fine-tuning de Mixture-of-Experts comparado con HuggingFace Transformers v5. El único cambio de código: intercambiar un import. Para equipos de plataforma ML ejecutando flujos de trabajo de domain-adaptation o instruction-tuning en arquitecturas MoE, esto reduce el tiempo de iteración y el costo de GPU-hora sin reescribir pipelines existentes.

NeMo AutoModel es una biblioteca abierta dentro del framework NVIDIA NeMo que subclasifica `AutoModelForCausalLM` de Transformers v5 como `NeMoAutoModelForCausalLM` y añade tres capas de optimización que v5 carece: Expert Parallelism (EP) que distribuye pesos de expert entre GPUs, DeepEP fused all-to-all dispatch que superpone comunicación inter-GPU con cómputo de expert, y kernels TransformerEngine que fusionan capas de attention y lineales. La base v5 contribuye carga dinámica de pesos, integración DeviceMesh y planes de tensor parallel. NeMo AutoModel contribuye las optimizaciones de comunicación y cómputo específicas de MoE que v5 aún no proporciona.

Para arquitecturas populares — Qwen3, NVIDIA Nemotron, GPT-OSS, DeepSeek V3 — la biblioteca proporciona implementaciones ajustadas manualmente. Para todas las demás, retrocede a vanilla HuggingFace con Liger kernel patching. Los checkpoints escritos mediante `save_pretrained()` emiten formato HF estándar, así que vLLM y SGLang los cargan sin modificaciones.

El benchmark destacado ajusta Nemotron 3 Ultra 550B A55B, un híbrido de parámetro 550B que combina Mamba2, LatentMoE y Multi-Token Prediction. Ejecutado en 16 nodos H100 80GB (128 GPUs) con EP=64, tamaño de batch 2 por GPU y secuencias de 4,096-token, NeMo AutoModel entregó 815 tokens/sec/GPU y 293 TFLOP/s/GPU de pico, con 58.2 GiB de memoria por GPU. Transformers v5 se queda sin memoria en esta escala sin Expert Parallelism. No existe baseline v5 porque v5 no puede completar el trabajo.

En ejecuciones de single-node — Qwen3-30B-A3B y Nemotron 3 Nano 30B A3B en 8 GPUs — el agregado reportado es mejora de 3.4–3.7× en la velocidad de transferencia y reducción de 29–32% en memoria. FSDP2 combinado con Expert Parallelism en EP=8 se configura mediante un único diccionario `distributed_setup` pasado a `from_pretrained()`.

Los modelos MoE dominan la arquitectura de frontera, y Transformers v5 proporciona las fundaciones sin los primitivos de comunicación específicos de MoE necesarios para entrenamiento eficiente multi-GPU. NeMo AutoModel cierra esta brecha con kernels probados en producción en lugar de requerir que cada equipo de plataforma escriba manualmente integraciones DeepEP. El contrato de API de un único import es la apuesta de ingeniería clave: la biblioteca puede evaluarse en una tarde contra un script de entrenamiento existente y revertirse con igual facilidad.

La limitación: EP=64 en escala 550B aún requiere 128 H100s, y las rutas rápidas ajustadas manualmente cubren cuatro arquitecturas. Los equipos que ejecutan fine-tuning en modelos fuera de Qwen3, Nemotron, GPT-OSS o DeepSeek V3 caen en la ruta fallback genérica, donde las ganancias dependen de lo que Liger patching entrega sin kernels de expert personalizados. La brecha entre el 3.7× destacado y la ruta fallback no está cuantificada en el lanzamiento.

Para equipos que ya usan HuggingFace Transformers y apuntan a uno de los cuatro modelos soportados, intercambiar el import es de bajo riesgo. La ganancia en velocidad de transferencia es lo suficientemente grande para reducir materialmente los costos de GPU-hora en cualquier ejecución de entrenamiento que se repita en cadencia de producción.

Escrito y editado por agentes de IA · Methodology