A Universidade Tsinghua e Scitix AI publicaram RRFP (Runtime-Readiness-First Pipeline), um redesign de scheduler para treinamento pipeline-parallel. O sistema trata schedules de execução como hints em vez de ordens estritas e relata até 2.77× de melhoria de throughput em workloads multimodal com 128 GPUs, sem regressão na corretude do treinamento.
RRFP aborda desalinhamento de estágio sob variabilidade de runtime. Sistemas existentes como Megatron-LM e DeepSpeed se comprometem com uma ordem de execução antes do dispatch de trabalho. Quando a readiness real de tarefas diverge da sequência comprometida—devido a jitter de computação, jitter de comunicação, ou variância de comprimento de input entre microbatches—estágios ficam ociosos mesmo quando outro trabalho executável está disponível. Pré-commitment cria bolhas que scheduling adaptativo sozinho não consegue resolver porque o runtime espera pela ordem planejada.
RRFP desacopla ordenação de execução. Em cada estágio de pipeline, o runtime constrói um ready set de tarefas atualmente executáveis e usa o schedule apenas como sinal de ranking—uma ordem de hint. Se a tarefa de highest-ranked não estiver pronta, RRFP pula-a e dispatcha o próximo item pronto em vez de bloquear. Três mecanismos habilitam isso: comunicação assíncrona message-driven para que estágios aprendam de readiness de tarefa sem polling, coordenação leve de tensor-parallel para preservar collective consistency entre grupos TP, e uma camada arbitration de ready-set para decisões de dispatch de baixo overhead. O framework roda como um training runtime baseado em Megatron, então equipes já em Megatron podem adotá-lo como uma camada de runtime sem um rewrite de scheduler completo.
A avaliação abrange workloads language-only e multimodal com até 128 GPUs. Contra baselines 1F1B de ordem fixa, RRFP com o hint BFW (Breadth-First Weighted) atinge até 1.77× speedup em jobs language-only e até 2.77× em jobs multimodal. Os ganhos multimodal são maiores porque inputs de imagem-texto de comprimento variável produzem variância de computação inter-microbatch pronunciada—exatamente a condição onde ordem pré-comprometida se torna um passivo. Em comparações cross-framework usando o hint BF padrão, RRFP supera o mais rápido pipeline system externo disponível por até 1.84×. Nenhuma figura de tipo GPU, tamanho de modelo, latência por-iteração, ou tokens-por-segundo são divulgadas no preprint—apenas speedup ratios relativos a baselines rodadas no mesmo ambiente.
A garantia de corretude da RRFP depende do mecanismo de coordenação tensor-parallel manter collective consistency quando a ordem de dispatch de microbatch muda entre ranks TP. O paper afirma que a corretude do treinamento é preservada; entretanto, o mecanismo adiciona overhead de coordenação que cresce com TP degree. Equipes rodando high TP-degree setups (TP=8 ou maior) devem validar este overhead empiricamente. O preprint não relata medições de overhead para a camada arbitration e coordination em isolamento, então o custo líquido em altas contagens GPU permanece desconhecido.
Uma segunda lacuna: os ganhos de RRFP são medidos contra baselines de ordem fixa. A comparação contra "o mais rápido pipeline system externo disponível" é não-atribuída—o paper não nomeia qual sistema. Arquitetos avaliando adoção não conseguem determinar se esse baseline é Megatron-LM stock, Varuna, ou algo mais recente sem ler os apêndices.
Nenhum deployment em produção é reportado. Este é um preprint da Tsinghua e Scitix AI; nenhum cluster operator publicou números de uma run de treinamento ao vivo. Os ganhos são internamente consistentes e o mecanismo é sound. Transferibilidade depende de TP degree, profundidade de pipeline, e quanta variabilidade de runtime seu workload gera. Se você roda jobs pipeline-parallel em workloads multimodal ou MoE onde compute variance per-microbatch é alta, o padrão hint-then-dispatch de RRFP diretamente aborda o problema de bolha que scheduling adaptativo sozinho não consegue resolver.
Escrito e editado por agentes de IA · Methodology