RRFP Atinge 2.77× de Throughput em Treinamento Pipeline-Parallel Multimodal

Paper aborda gargalo de paralelismo de pipeline durante treinamento de modelos grandes: quando a readiness de tarefas diverge da ordem de execução pré-comprometida, estágios ficam ociosos mesmo com trabalho disponível. Um novo scheduler adaptativo reordena dinamicamente a execução para eliminar bolhas de tempo de espera. Ângulo de trainer: melhoria medida em jobs multi-node reais; aplicável a equipes treinando modelos >100B params com pipeline parallelism distribuído.

A Universidade Tsinghua e Scitix AI publicaram RRFP (Runtime-Readiness-First Pipeline), um redesign de scheduler para treinamento pipeline-parallel. O sistema trata schedules de execução como hints em vez de ordens estritas e relata até 2.77× de melhoria de throughput em workloads multimodal com 128 GPUs, sem regressão na corretude do treinamento.

RRFP aborda desalinhamento de estágio sob variabilidade de runtime. Sistemas existentes como Megatron-LM e DeepSpeed se comprometem com uma ordem de execução antes do dispatch de trabalho. Quando a readiness real de tarefas diverge da sequência comprometida—devido a jitter de computação, jitter de comunicação, ou variância de comprimento de input entre microbatches—estágios ficam ociosos mesmo quando outro trabalho executável está disponível. Pré-commitment cria bolhas que scheduling adaptativo sozinho não consegue resolver porque o runtime espera pela ordem planejada.

RRFP desacopla ordenação de execução. Em cada estágio de pipeline, o runtime constrói um ready set de tarefas atualmente executáveis e usa o schedule apenas como sinal de ranking—uma ordem de hint. Se a tarefa de highest-ranked não estiver pronta, RRFP pula-a e dispatcha o próximo item pronto em vez de bloquear. Três mecanismos habilitam isso: comunicação assíncrona message-driven para que estágios aprendam de readiness de tarefa sem polling, coordenação leve de tensor-parallel para preservar collective consistency entre grupos TP, e uma camada arbitration de ready-set para decisões de dispatch de baixo overhead. O framework roda como um training runtime baseado em Megatron, então equipes já em Megatron podem adotá-lo como uma camada de runtime sem um rewrite de scheduler completo.

A avaliação abrange workloads language-only e multimodal com até 128 GPUs. Contra baselines 1F1B de ordem fixa, RRFP com o hint BFW (Breadth-First Weighted) atinge até 1.77× speedup em jobs language-only e até 2.77× em jobs multimodal. Os ganhos multimodal são maiores porque inputs de imagem-texto de comprimento variável produzem variância de computação inter-microbatch pronunciada—exatamente a condição onde ordem pré-comprometida se torna um passivo. Em comparações cross-framework usando o hint BF padrão, RRFP supera o mais rápido pipeline system externo disponível por até 1.84×. Nenhuma figura de tipo GPU, tamanho de modelo, latência por-iteração, ou tokens-por-segundo são divulgadas no preprint—apenas speedup ratios relativos a baselines rodadas no mesmo ambiente.

A garantia de corretude da RRFP depende do mecanismo de coordenação tensor-parallel manter collective consistency quando a ordem de dispatch de microbatch muda entre ranks TP. O paper afirma que a corretude do treinamento é preservada; entretanto, o mecanismo adiciona overhead de coordenação que cresce com TP degree. Equipes rodando high TP-degree setups (TP=8 ou maior) devem validar este overhead empiricamente. O preprint não relata medições de overhead para a camada arbitration e coordination em isolamento, então o custo líquido em altas contagens GPU permanece desconhecido.

Uma segunda lacuna: os ganhos de RRFP são medidos contra baselines de ordem fixa. A comparação contra "o mais rápido pipeline system externo disponível" é não-atribuída—o paper não nomeia qual sistema. Arquitetos avaliando adoção não conseguem determinar se esse baseline é Megatron-LM stock, Varuna, ou algo mais recente sem ler os apêndices.

Nenhum deployment em produção é reportado. Este é um preprint da Tsinghua e Scitix AI; nenhum cluster operator publicou números de uma run de treinamento ao vivo. Os ganhos são internamente consistentes e o mecanismo é sound. Transferibilidade depende de TP degree, profundidade de pipeline, e quanta variabilidade de runtime seu workload gera. Se você roda jobs pipeline-parallel em workloads multimodal ou MoE onde compute variance per-microbatch é alta, o padrão hint-then-dispatch de RRFP diretamente aborda o problema de bolha que scheduling adaptativo sozinho não consegue resolver.

Sources

RRFP achieves up to 1.77× speedup on language-only workloads using the BFW hint
"Using the BFW hint, RRFP achieves up to 1.77× speedup on language-only workloads and up to 2.77× on multimodal workloads."
arxiv.org ↗
RRFP achieves up to 2.77× speedup on multimodal workloads using the BFW hint
"Using the BFW hint, RRFP achieves up to 1.77× speedup on language-only workloads and up to 2.77× on multimodal workloads."
arxiv.org ↗
RRFP outperforms the fastest available external pipeline system by up to 1.84× using the BF hint
"RRFP with the default BF hint outperforms the faster available external system by up to 1.84× while preserving training correctness."
arxiv.org ↗
RRFP is evaluated on up to 128 GPUs across language-only and multimodal workloads
"We implement RRFP in a Megatron-based training framework and evaluate it on language-only and multimodal workloads at up to 128 GPUs."
arxiv.org ↗
RRFP uses message-driven asynchronous communication, lightweight tensor-parallel coordination, and ready-set arbitration
"RRFP combines message-driven asynchronous communication, lightweight tensor-parallel coordination for collective consistency, and ready-set arbitration for low-overhead dispatch."
arxiv.org ↗
The paper is authored by researchers from Tsinghua University and Scitix AI
"Ruitao Liu1 Xinyang Tian1 Shuo Chen1 Tingrui Zhang1 Guang Yang1 Alan Zhao2 Wei Xu1 1Tsinghua University 2Scitix AI"
arxiv.org ↗
Existing systems treat a pre-committed execution order as a strict sequence stages must follow, causing idle bubbles when task readiness diverges from the plan
"stages may wait for not-yet-ready work even though other executable work is available, creating stage misalignment, idle bubbles, and reduced utilization"
arxiv.org ↗
RRFP treats the schedule as a non-binding hint order for ranking currently ready work rather than a strict execution sequence
"it treats the schedule as a non-binding hint order for ranking currently ready work"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

RRFP Atinge 2.77× de Throughput em Treinamento Pipeline-Parallel Multimodal

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.