Compilador Piper permite treinamento estilo DeepSeek em escala de milhares de GPUs

O Piper, um compilador de treinamento distribuído da Universidade de Washington, simplifica a composição complexa de paralelismo tratando-o como um problema de compilação em vez de uma tarefa manual de engenharia de sistemas. O sistema é projetado para pré-treinamento de modelos fundamentais, capaz de escalar de centenas a milhares de aceleradores. O Piper afirma paridade de desempenho com implementações existentes do ZeRO em estratégias padrão e permite a programação conjunta de computação e comunicação em estratégias bem compostas, como o DualPipe do DeepSeek-V3.

A arquitetura do Piper separa a estratégia de paralelismo de alto nível dos planos de execução por dispositivo de baixo nível. Os usuários anexam anotações de modelo e diretivas de agendamento ao representação intermediária do Piper, um DAG global de treinamento unificado que representa explicitamente cada operador de computação e comunicação em todo o cluster. O Piper compila esse IR em planos de execução por dispositivo e os dispacha por meio de um tempo de execução distribuído que permanece agnóstico em relação à estratégia usada, seja ela pura paralelismo de dados, um esquema de fragmentação do ZeRO-3 ou um híbrido de pipeline especializado personalizado. Isso contrasta com o Megatron, DeepSpeed e TorchTitan, que oferecem botões para cada dimensão de paralelismo, mas os tratam como se as dimensões fossem independentes, e com o JAX/XLA, que expõe a alocação genérica de tensores, mas não pode facilmente suportar agendas de pipeline arbitrárias ou controlar recursos de dispositivo granulares, como a partilha de streaming-multiprocessor.

A agenda DualPipe do DeepSeek-V3 destaca as limitações dos quadros existentes. O DualPipe compartilha um GPU entre dois microlotes de pipeline, dividindo streaming multiprocessors entre kernels de computação forward e backward e comunicação all-to-all especialista para ocultar a latência. Quadros de uso geral assumem que um microlote possui o dispositivo inteiro, então isso requer especialistas humanos para engenhar manualmente tanto o plano de fragmentação de alto nível quanto as máscaras de alocação de SM de baixo nível para aquele modelo e cluster específicos. O Piper simplifica isso, tratando o DualPipe como um conjunto de transformações IR no DAG global; o compilador deriva o plano de execução por dispositivo, incluindo a intercalação de kernels e a partilha de SM, sem a necessidade de código de orquestração manual.

O artigo apresenta um sistema protótipo com comparações de design; a avaliação se concentra no design do sistema e em comparações relativas em vez de latências de tempo de passo absolutas, curvas de eficiência de escalonamento ou medições de GPU-hour em topologias de hardware nomeadas. Embora os autores aleguem paridade de desempenho com o ZeRO em estratégias comuns e citem ganhos de memória e throughput em agendas compostas, eles não fornecem latências de tempo de passo medidas, curvas de eficiência de escalonamento, economias de GPU-hour ou números de consumo de memória em topologias de hardware específicas. O Piper também é explicitamente controlável pelo usuário em vez de auto-sintonização: o arquiteto seleciona a estratégia de paralelismo e o framework apenas reduz o custo de implementação em vez de pesquisar o espaço combinatorial da estratégia.

O artigo não aborda a lacuna total de produção. Não quantifica a sobrecarga de compilação para DAGs de parâmetros bilionários, ou descreve o comportamento de tolerância a falhas, semântica de ponto de verificação ou visibilidade de depuração em escala de milhares de GPUs. Como o Piper é posicionado como um substituto para pilhas existentes em vez de um plugin, a adoção exigiria a migração das definições de modelo do Megatron, DeepSpeed ou TorchTitan e a revalidação da correção numérica em um novo tempo de execução. A interface também deixa a seleção da estratégia como um problema aberto; o Piper torna uma estratégia escolhida executável, mas não oferece orientação sobre se o FSDP combinado com paralelismo de tensor e pipeline, ou uma variante personalizada do DualPipe, é a chamada ideal para uma determinada carga de trabalho e topologia de cluster.

Nenhuma evidência de produção ainda; trate o Piper como um sinal de pesquisa de que IRs globais compilados para treinamento distribuído estão chegando, mas não aloque orçamento para migração até que o código-fonte aberto e os benchmarks de grandes clusters estejam disponíveis. O que roubar agora é a decoupling em nível IR em si: se sua equipe de plataforma ainda está ajustando manualmente estágios de pipeline e máscaras SM, comece a abstrair seu grafo de treinamento em um DAG global transformável antes que sua próxima reescrita de pilha o force a fazer isso.

Sources

Piper decouples strategy from runtime using a unified global training DAG (IR) and compiles per-device execution plans
"Piper allows users to declare a comprehensive distributed training strategy with a small set of model annotations and scheduling directives. Each directive applies a transformation on Piper's intermediate representation (IR), a unified global training DAG that represents all computation and communication."
arxiv.org ↗
Piper asserts performance parity with ZeRO and enables memory and throughput gains on composed strategies such as DualPipe
"We show that the combined system maintains performance parity on commonly available strategies such as ZeRO, while also enabling additional performance and memory efficiency gains through joint scheduling of compute and communication in composed parallelism strategies such as DeepSeek-V3's DualPipe."
arxiv.org ↗
Yi Pan is jointly affiliated with University of Washington and Shanghai Jiao Tong University
"Yi Pan University of Washington and Shanghai Jiao Tong UniversitySeattleWAUSA"
arxiv.org ↗
Deployed foundation-model training systems rely on human experts to manually design both high-level parallelism strategy and low-level execution
"Deployed systems for foundation model pretraining often rely on human experts to manually design a high-level parallelism strategy then implement the corresponding low-level execution strategy, making it difficult to adapt the system to new strategies."
arxiv.org ↗
Modern training workloads use combinations of DP, TP, EP, CP, PP and ZeRO across hundreds to thousands of accelerators
"Modern workloads now use combinations of data (DP), tensor (TP), expert (EP), context (CP) and pipeline (PP) parallelism together with memory-saving optimizations such as ZeRO. There is no one-size fits-all solution, as the right strategy depends on the workload and hardware."
arxiv.org ↗
Megatron, DeepSpeed, and TorchTitan offer knobs for each parallelism dimension but handle them as if the dimensions are independent, making joint scheduling difficult
"General-purpose frameworks such as Megatron, DeepSpeed, and TorchTitan offer a more flexible and model-agnostic interface, with knobs for tuning the distributed training strategy. However, these frameworks eagerly dispatch operations for each high-level parallelism dimension as if the dimensions are independent, making it challenging to jointly schedule operations from composed strategies."
arxiv.org ↗
DeepSeek-V3's DualPipe required hand-engineering SM allocation between compute and communication
"DeepSeek-V3 introduced DualPipe, a custom PP schedule that when composed with EP enables each device to use local micro-batch overlapping to hide EP communication overheads. This solution required human-engineered codesign of the high-level parallelism strategy with a hand-implemented per-device execution strategy to manage intra-GPU resources, such as the streaming multiprocessors (SMs) allocated to compute vs. communication."
arxiv.org ↗
JAX/XLA exposes generic tensor placement but cannot easily support arbitrary pipeline schedules or per-device resource control
"While compiler-based frameworks such as JAX/XLA present a more generic tensor placement abstraction instead of a fixed set of knobs, they cannot easily support arbitrary PP schedules nor control over each device's resources."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Compilador Piper permite treinamento estilo DeepSeek em escala de milhares de GPUs

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.