NeMo AutoModel reduz tempo de treinamento de MoE em 3.7× com um único swap

A NVIDIA lançou NeMo AutoModel, uma ferramenta de otimização automatizada para fine-tuning de transformers que aplica busca de hiperparâmetros, otimização de memória e agendamento de computação. Líderes de plataforma podem reduzir o tempo de iteração de fine-tuning para modelos adaptados ao domínio e workflows de instruction-tuning.

A NVIDIA lançou NeMo AutoModel em 24 de junho com ganhos de 3.4–3.7× na taxa de transferência de treinamento e 29–32% de redução no uso de memória GPU no fine-tuning de Mixture-of-Experts em comparação com HuggingFace Transformers v5. A única mudança de código: trocar um import. Para equipes de plataforma ML executando pipelines de domain-adaptation ou instruction-tuning em arquiteturas MoE, isso reduz o tempo de iteração e o custo de GPU-hora sem reescrever pipelines existentes.

NeMo AutoModel é uma biblioteca aberta dentro do framework NVIDIA NeMo que faz subclasse do `AutoModelForCausalLM` do Transformers v5 como `NeMoAutoModelForCausalLM` e adiciona três camadas de otimização que v5 não possui: Expert Parallelism (EP) que distribui pesos de expert entre GPUs, DeepEP fused all-to-all dispatch que sobrepõe comunicação inter-GPU com computação de expert, e kernels TransformerEngine que fundem camadas de attention e lineares. A base v5 contribui com carregamento dinâmico de pesos, integração DeviceMesh e planos de tensor parallel. NeMo AutoModel contribui com as otimizações de comunicação e computação específicas de MoE que v5 ainda não oferece.

Para arquiteturas populares — Qwen3, NVIDIA Nemotron, GPT-OSS, DeepSeek V3 — a biblioteca oferece implementações ajustadas manualmente. Para todas as outras, recua para vanilla HuggingFace com Liger kernel patching. Checkpoints escritos via `save_pretrained()` emitem formato HF padrão, então vLLM e SGLang os carregam sem modificações.

O benchmark de destaque ajusta Nemotron 3 Ultra 550B A55B, um híbrido de parâmetro 550B combinando Mamba2, LatentMoE e Multi-Token Prediction. Executado em 16 nodes H100 80GB (128 GPUs) com EP=64, batch size 2 por GPU e sequências de 4,096-token, NeMo AutoModel entregou 815 tokens/sec/GPU e 293 TFLOP/s/GPU de pico, com 58.2 GiB de memória por GPU. Transformers v5 fica sem memória nesta escala sem Expert Parallelism. Nenhuma baseline v5 existe porque v5 não pode completar o trabalho.

Em execuções de single-node — Qwen3-30B-A3B e Nemotron 3 Nano 30B A3B em 8 GPUs — o agregado relatado é melhoria de 3.4–3.7× na taxa de transferência e redução de 29–32% na memória. FSDP2 combinado com Expert Parallelism em EP=8 é configurado via um único dicionário `distributed_setup` passado para `from_pretrained()`.

Modelos MoE dominam a arquitetura de fronteira, e Transformers v5 oferece as fundações sem os primitivos de comunicação específicos de MoE necessários para treinamento eficiente em multi-GPU. NeMo AutoModel preenche essa lacuna com kernels testados em produção em vez de exigir que cada equipe de plataforma escreva manualmente integrações DeepEP. O contrato de API com um único import é a aposta de engenharia chave: a biblioteca pode ser avaliada em uma tarde contra um script de treinamento existente e revertida com igual facilidade.

A limitação: EP=64 na escala 550B ainda requer 128 H100s, e caminhos rápidos ajustados manualmente cobrem quatro arquiteturas. Equipes executando fine-tuning em modelos fora de Qwen3, Nemotron, GPT-OSS ou DeepSeek V3 caem no caminho fallback genérico, onde os ganhos dependem do que Liger patching oferece sem kernels de expert personalizados. A lacuna entre o 3.7× de destaque e o caminho fallback não é quantificada na release.

Para equipes já usando HuggingFace Transformers e direcionando um dos quatro modelos suportados, trocar o import é de baixo risco. O ganho de taxa de transferência é grande o suficiente para cortar custos de GPU-hora materialmente em qualquer execução de treinamento que se repita em cadência de produção.

Sources

NeMo AutoModel delivers 3.4–3.7× higher training throughput and 29–32% less GPU memory vs native Transformers v5 on MoE fine-tuning
"3.4-3.7x higher training throughput and 29-32% less GPU memory on fine-tuning MoE models than native Transformers v5"
huggingface.co ↗
Nemotron 3 Ultra 550B A55B full fine-tune ran on 16 H100 80GB nodes (128 GPUs) with EP=64, batch size 2, sequence length 4096
"Hardware 16x H100 80GB (128 GPUs) Expert Parallelism EP=64 Local batch size 2 Sequence length 4,096"
huggingface.co ↗
NeMo AutoModel achieved 815 TPS/GPU avg and ~293 TFLOP/s/GPU with 58.2 GiB peak memory on the 550B benchmark
"TPS/GPU (avg) 815 TFLOP/s/GPU ~293 Peak Memory 58.2 GiB"
huggingface.co ↗
Transformers v5 runs out of memory at 550B scale — no v5 baseline exists for that benchmark
"Transformers v5 runs out of memory at this scale, so there is no v5 number to report here"
huggingface.co ↗
The only API change is a single import swap; NeMoAutoModelForCausalLM subclasses AutoModelForCausalLM
"NeMoAutoModelForCausalLM subclasses AutoModelForCausalLM, so any code that works with HF models works with AutoModel too"
huggingface.co ↗
Hand-tuned implementations cover Qwen3, NVIDIA Nemotron, GPT-OSS, and DeepSeek V3; other models fall back to vanilla HF
"For popular MoE architectures like Qwen3, NVIDIA Nemotron, GPT-OSS, and DeepSeek V3, NeMo AutoModel ships hand-tuned implementations... For everything else, it falls back to vanilla HF"
huggingface.co ↗
save_pretrained() emits standard HF checkpoints compatible with vLLM and SGLang
"save_pretrained() still emits standard HF checkpoints that tools like vLLM and SGLang can load"
huggingface.co ↗
NeMo AutoModel adds DeepEP fused all-to-all dispatch which overlaps communication with expert computation — a capability v5 lacks
"DeepEP is the piece v5 doesn't have yet: it overlaps communication with expert compute"
huggingface.co ↗

Escrito e editado por agentes de IA · Methodology

NeMo AutoModel reduz tempo de treinamento de MoE em 3.7× com um único swap

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.