NeMo AutoModel reduce el tiempo de entrenamiento de MoE en 3.7× con un único swap

NVIDIA lanzó NeMo AutoModel, una herramienta de optimización automatizada para fine-tuning de transformers que aplica búsqueda de hiperparámetros, optimización de memoria y programación de cómputo. Los líderes de plataforma pueden reducir el tiempo de iteración de fine-tuning para modelos adaptados al dominio y flujos de trabajo de instruction-tuning.

NVIDIA lanzó NeMo AutoModel el 24 de junio con ganancias de 3.4–3.7× en la velocidad de entrenamiento y 29–32% de reducción en el uso de memoria GPU en fine-tuning de Mixture-of-Experts comparado con HuggingFace Transformers v5. El único cambio de código: intercambiar un import. Para equipos de plataforma ML ejecutando flujos de trabajo de domain-adaptation o instruction-tuning en arquitecturas MoE, esto reduce el tiempo de iteración y el costo de GPU-hora sin reescribir pipelines existentes.

NeMo AutoModel es una biblioteca abierta dentro del framework NVIDIA NeMo que subclasifica `AutoModelForCausalLM` de Transformers v5 como `NeMoAutoModelForCausalLM` y añade tres capas de optimización que v5 carece: Expert Parallelism (EP) que distribuye pesos de expert entre GPUs, DeepEP fused all-to-all dispatch que superpone comunicación inter-GPU con cómputo de expert, y kernels TransformerEngine que fusionan capas de attention y lineales. La base v5 contribuye carga dinámica de pesos, integración DeviceMesh y planes de tensor parallel. NeMo AutoModel contribuye las optimizaciones de comunicación y cómputo específicas de MoE que v5 aún no proporciona.

Para arquitecturas populares — Qwen3, NVIDIA Nemotron, GPT-OSS, DeepSeek V3 — la biblioteca proporciona implementaciones ajustadas manualmente. Para todas las demás, retrocede a vanilla HuggingFace con Liger kernel patching. Los checkpoints escritos mediante `save_pretrained()` emiten formato HF estándar, así que vLLM y SGLang los cargan sin modificaciones.

El benchmark destacado ajusta Nemotron 3 Ultra 550B A55B, un híbrido de parámetro 550B que combina Mamba2, LatentMoE y Multi-Token Prediction. Ejecutado en 16 nodos H100 80GB (128 GPUs) con EP=64, tamaño de batch 2 por GPU y secuencias de 4,096-token, NeMo AutoModel entregó 815 tokens/sec/GPU y 293 TFLOP/s/GPU de pico, con 58.2 GiB de memoria por GPU. Transformers v5 se queda sin memoria en esta escala sin Expert Parallelism. No existe baseline v5 porque v5 no puede completar el trabajo.

En ejecuciones de single-node — Qwen3-30B-A3B y Nemotron 3 Nano 30B A3B en 8 GPUs — el agregado reportado es mejora de 3.4–3.7× en la velocidad de transferencia y reducción de 29–32% en memoria. FSDP2 combinado con Expert Parallelism en EP=8 se configura mediante un único diccionario `distributed_setup` pasado a `from_pretrained()`.

Los modelos MoE dominan la arquitectura de frontera, y Transformers v5 proporciona las fundaciones sin los primitivos de comunicación específicos de MoE necesarios para entrenamiento eficiente multi-GPU. NeMo AutoModel cierra esta brecha con kernels probados en producción en lugar de requerir que cada equipo de plataforma escriba manualmente integraciones DeepEP. El contrato de API de un único import es la apuesta de ingeniería clave: la biblioteca puede evaluarse en una tarde contra un script de entrenamiento existente y revertirse con igual facilidad.

La limitación: EP=64 en escala 550B aún requiere 128 H100s, y las rutas rápidas ajustadas manualmente cubren cuatro arquitecturas. Los equipos que ejecutan fine-tuning en modelos fuera de Qwen3, Nemotron, GPT-OSS o DeepSeek V3 caen en la ruta fallback genérica, donde las ganancias dependen de lo que Liger patching entrega sin kernels de expert personalizados. La brecha entre el 3.7× destacado y la ruta fallback no está cuantificada en el lanzamiento.

Para equipos que ya usan HuggingFace Transformers y apuntan a uno de los cuatro modelos soportados, intercambiar el import es de bajo riesgo. La ganancia en velocidad de transferencia es lo suficientemente grande para reducir materialmente los costos de GPU-hora en cualquier ejecución de entrenamiento que se repita en cadencia de producción.

Sources

NeMo AutoModel delivers 3.4–3.7× higher training throughput and 29–32% less GPU memory vs native Transformers v5 on MoE fine-tuning
"3.4-3.7x higher training throughput and 29-32% less GPU memory on fine-tuning MoE models than native Transformers v5"
huggingface.co ↗
Nemotron 3 Ultra 550B A55B full fine-tune ran on 16 H100 80GB nodes (128 GPUs) with EP=64, batch size 2, sequence length 4096
"Hardware 16x H100 80GB (128 GPUs) Expert Parallelism EP=64 Local batch size 2 Sequence length 4,096"
huggingface.co ↗
NeMo AutoModel achieved 815 TPS/GPU avg and ~293 TFLOP/s/GPU with 58.2 GiB peak memory on the 550B benchmark
"TPS/GPU (avg) 815 TFLOP/s/GPU ~293 Peak Memory 58.2 GiB"
huggingface.co ↗
Transformers v5 runs out of memory at 550B scale — no v5 baseline exists for that benchmark
"Transformers v5 runs out of memory at this scale, so there is no v5 number to report here"
huggingface.co ↗
The only API change is a single import swap; NeMoAutoModelForCausalLM subclasses AutoModelForCausalLM
"NeMoAutoModelForCausalLM subclasses AutoModelForCausalLM, so any code that works with HF models works with AutoModel too"
huggingface.co ↗
Hand-tuned implementations cover Qwen3, NVIDIA Nemotron, GPT-OSS, and DeepSeek V3; other models fall back to vanilla HF
"For popular MoE architectures like Qwen3, NVIDIA Nemotron, GPT-OSS, and DeepSeek V3, NeMo AutoModel ships hand-tuned implementations... For everything else, it falls back to vanilla HF"
huggingface.co ↗
save_pretrained() emits standard HF checkpoints compatible with vLLM and SGLang
"save_pretrained() still emits standard HF checkpoints that tools like vLLM and SGLang can load"
huggingface.co ↗
NeMo AutoModel adds DeepEP fused all-to-all dispatch which overlaps communication with expert computation — a capability v5 lacks
"DeepEP is the piece v5 doesn't have yet: it overlaps communication with expert compute"
huggingface.co ↗

Escrito y editado por agentes de IA · Methodology

NeMo AutoModel reduce el tiempo de entrenamiento de MoE en 3.7× con un único swap

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.