El compilador Piper de la Universidad de Washington unifica los horarios de entrenamiento distribuido

Piper, un compilador de entrenamiento distribuido de la Universidad de Washington, simplifica estrategias de paralelismo complejos al tratarlos como transformaciones en un gráfico de cómputo global unificado, en lugar de horarios específicos del dispositivo. Este enfoque se dirige a los regímenes combinados de paralelismo de tubería y experto que actualmente requieren que los equipos modifiquen marcos como Megatron o escriban horarios CUDA personalizados, como se detalla en un artículo de arXiv de junio de 2026.

Las pilas de preentrenamiento de producción actualmente dependen de expertos humanos para diseñar estrategias de paralelismo de alto nivel e implementar los planes de ejecución correspondientes de bajo nivel. Los marcos como Megatron-LM, DeepSpeed y TorchTitan se limitan a un conjunto fijo de estrategias comunes y no admiten la programación conjunta de cómputo y comunicación a lo largo de estrategias compuestas. JAX y XLA proporcionan abstracciones de colocación de tensores más genéricas pero carecen de la capacidad de expresar horarios de paralelismo de tubería arbitrarios o controlar la asignación de recursos por dispositivo con la granularidad requerida por las pilas de producción.

Piper desacopla la estrategia de su ejecución en tiempo de ejecución. Los usuarios anotan el modelo y emiten directivas de programación, que aplican transformaciones a la representación intermedia de Piper, un DAG de entrenamiento global unificado que representa cada operación de cómputo y comunicación en el clúster. El compilador luego reduce este DAG en planes de ejecución por dispositivo, ejecutados por el tiempo de ejecución distribuido sin conciencia de la estrategia de paralelismo subyacente. La vista a nivel de clúster del IR permite la optimización conjunta de la comunicación y el cómputo en dimensiones tratadas como separadas por los marcos existentes.

El artículo de arXiv utiliza el horario DualPipe de DeepSeek-V3 como ejemplo. La eficiencia de DualPipe depende de la estrecha acoplación del paralelismo de tubería con el paralelismo de experto y la asignación de recursos por GPU personalizada. Si bien los ingenieros de DeepSeek co-diseñaron la estrategia de alto nivel con una capa de ejecución por dispositivo personalizada, Piper expresa la misma composición como transformaciones IR declarativas, produciendo un horario compilado sin código en tiempo de ejecución personalizado.

Los autores informan de un rendimiento equivalente a ZeRO y citan ganancias de eficiencia de memoria al programar DualPipe conjuntamente con paralelismo de experto. Sin embargo, el artículo no proporciona métricas detalladas: comparaciones de tokens/GPU-segundo, latencia de reloj de pared o horas de GPU para convergencia—contra marcos de producción en hardware idéntico. Sin estas métricas, es difícil estimar si el overhead de compilación de Piper o las ventajas de programación de comunicación serían significativas en la infraestructura de entrenamiento existente.

La depurabilidad es un potencial problema. Con el DAG global de Piper produciendo planes por dispositivo que pueden divergir de la realidad del hardware, el seguimiento de las discrepancias requiere razonar a través de transformaciones del compilador opacas. El artículo tampoco presenta evidencia de que el IR escale a ejecuciones de miles de GPU o se integre con puntos de control de producción, reanudación elástica o carga de datos tolerante a fallos.

Adoptar Piper hoy significaría portar los cargadores de datos, optimizadores y formatos de punto de control existentes a un tiempo de ejecución sin probar y depurar planes de ejecución compilados en lugar de conocidas núcleos de Python o CUDA.

El patrón valioso es el desacoplamiento de Piper de la estrategia de paralelismo de la ejecución por dispositivo a través de un DAG unificado de cómputo y comunicación, lo que podría transformar la introducción de nuevas recetas de entrenamiento de un bife de marco en una pasada del compilador.

Sources

Piper is a user-controllable distributed training system that decouples the strategy from the runtime implementation, allowing users to declare a comprehensive distributed training strategy with a small set of model annotations and scheduling directives.
"We present Piper, a user-controllable distributed training system that decouples the strategy from the runtime implementation."
arxiv.org ↗
Piper's intermediate representation is a unified global training DAG that represents all computation and communication across the cluster, from which per-device execution plans are compiled.
"Each directive applies a transformation on Piper's intermediate representation (IR), a unified global training DAG that represents all computation and communication."
arxiv.org ↗
Existing frameworks such as Megatron-LM, DeepSpeed, and TorchTitan eagerly dispatch operations for each high-level parallelism dimension as if the dimensions are independent, making it challenging to jointly schedule operations from composed strategies.
"these frameworks eagerly dispatch operations for each high-level parallelism dimension as if the dimensions are independent, making it challenging to jointly schedule operations from composed strategies."
arxiv.org ↗
DeepSeek-V3's DualPipe required human-engineered codesign of the high-level parallelism strategy with a hand-implemented per-device execution strategy to manage intra-GPU resources, such as the streaming multiprocessors allocated to compute vs. communication.
"This solution required human-engineered codesign of the high-level parallelism strategy with a hand-implemented per-device execution strategy to manage intra-GPU resources, such as the streaming multiprocessors (SMs) allocated to compute vs. communication."
arxiv.org ↗
Piper maintains performance parity on commonly available strategies such as ZeRO, while also enabling additional performance and memory efficiency gains through joint scheduling of compute and communication in composed parallelism strategies such as DualPipe.
"the combined system maintains performance parity on commonly available strategies such as ZeRO, while also enabling additional performance and memory efficiency gains through joint scheduling of compute and communication in composed parallelism strategies such as DeepSeek-V3's DualPipe."
arxiv.org ↗
DualPipe uses a bidirectional pipeline parallelism algorithm for computation-communication overlap, scheduling forward and backward passes in overlapping, bidirectional streams.
"DualPipe orchestrates forward and backward passes to occur in overlapping, bidirectional streams."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

El compilador Piper de la Universidad de Washington unifica los horarios de entrenamiento distribuido

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.