Compilador Piper Elimina la Codificación Manual para Entrenamiento Distribuido

Los investigadores de la Universidad de Washington han desarrollado Piper, un compilador de entrenamiento distribuido de código abierto que simplifica la implementación de nuevas estrategias de paralelismo. Piper permite la especificación de anotaciones de modelo e instrucciones de programación, eliminando la necesidad de reescribir manualmente planes de ejecución por dispositivo para clústeres con cientos o miles de aceleradores.

Piper separa la estrategia de entrenamiento distribuido de la implementación en tiempo de ejecución a través de marcos como Megatron, DeepSpeed y TorchTitan, utilizando una representación intermedia unificada: un DAG de entrenamiento global que captura todo el cálculo y comunicación a través del clúster. Los usuarios pueden especificar el reparto o replicación de parámetros a través de anotaciones de alto nivel y aplicar directivas de programación que transforman el DAG. Piper luego compila estos en planes de ejecución por dispositivo y los envía a través de un tiempo de ejecución agnóstico de estrategia. A diferencia de los marcos existentes, Piper trata la programación como una optimización componible sobre todo el gráfico en lugar de enviar operaciones de forma independiente a lo largo de cada dimensión de paralelismo.

El caso de prueba DualPipe demuestra la ventaja de Piper. El horario de paralelismo de pipeline personalizado de DeepSeek-V3 superpone la comunicación paralela de expertos al colocar dos microlotes en la misma GPU y particionar manualmente los recursos de streaming multiprocesador entre cómputo y comunicación. Recrear esto en marcos generales de propósito requiere codificación manual por dispositivo porque Megatron y TorchTitan asumen que cada microlote posee la GPU completa, y JAX/XLA carecen de abstracciones para horarios de pipeline arbitrarios o control de recursos por dispositivo. Piper expresa DualPipe completamente a través de su API de directivas, compilando automáticamente la lógica de compartición de SM y superposición.

Piper coincide con las líneas base optimizadas de ZeRO para estrategias comunes y permite ganancias adicionales de rendimiento y eficiencia de memoria de la programación conjunta de cómputo y comunicación en estrategias compuestas. El documento de la UW enmarca el problema como horarios de pipeline que dejan dispositivos inactivos mientras esperan dependencias, argumentando que la optimización conjunta del DAG global recupera ese tiempo superponiendo la comunicación con el cómputo en lugar de tratar cada dimensión de forma independiente. El sistema se dirige a la extensibilidad, minimizando el esfuerzo necesario para especificar e implementar estrategias de entrenamiento distribuido arbitrarias.

La integración y la madurez siguen siendo desafíos. Persisten preguntas de integración para equipos que operan a gran escala; los equipos que entrenan modelos de fundación confían en ecosistemas construidos a lo largo de años para puntos de control resistentes a fallos, reparto de estado del optimizador y herramientas de depuración que Piper no ha demostrado. El costo de tiempo de compilación de reducir un DAG global a través de miles de aceleradores no se ha cuantificado, así como el comportamiento bajo interconexiones heterogéneas o mutaciones de estrategia en medio de la tarea. Además, el techo de complejidad de la API de directivas no está probado: si una estrategia novatua requiere entrar en los internos del compilador en lugar de componer anotaciones existentes, el reducción prometida del tiempo de iteración desaparece.

Sources

Piper decouples the strategy from the runtime implementation; users declare a distributed training strategy with model annotations and scheduling directives over a unified global training DAG (IR)
"Piper allows users to declare a comprehensive distributed training strategy with a small set of model annotations and scheduling directives. Each directive applies a transformation on Piper's intermediate representation (IR), a unified global training DAG that represents all computation and communication."
arxiv.org ↗
Existing frameworks like Megatron, DeepSpeed, and TorchTitan eagerly dispatch operations per parallelism dimension independently, making it hard to jointly schedule composed strategies; DualPipe requires sharing a GPU between two PP microbatches but existing frameworks assume each microbatch owns the full GPU
"these frameworks eagerly dispatch operations for each high-level parallelism dimension as if the dimensions are independent, making it challenging to jointly schedule operations from composed strategies. For example, conceptually DualPipe shares a GPU between two PP microbatches; this is challenging to implement in existing frameworks that assume that each microbatch is allocated the full GPU."
arxiv.org ↗
DeepSeek-V3's DualPipe required human-engineered codesign of the parallelism strategy with a hand-implemented per-device execution strategy to manage intra-GPU resources such as SM allocation between compute and communication
"DeepSeek-V3 introduced DualPipe, a custom PP schedule that when composed with EP enables each device to use local micro-batch overlapping to hide EP communication overheads. This solution required human-engineered codesign of the high-level parallelism strategy with a hand-implemented per-device execution strategy to manage intra-GPU resources, such as the streaming multiprocessors (SMs) allocated to compute vs. communication."
arxiv.org ↗
Piper maintains performance parity on commonly available strategies such as ZeRO, while enabling additional performance and memory efficiency gains through joint scheduling of compute and communication in composed parallelism strategies such as DualPipe
"the combined system maintains performance parity on commonly available strategies such as ZeRO, while also enabling additional performance and memory efficiency gains through joint scheduling of compute and communication in composed parallelism strategies such as DeepSeek-V3's DualPipe."
arxiv.org ↗
Modern pretraining workloads use combinations of DP, TP, EP, CP, and PP together with ZeRO; no one-size-fits-all solution exists as the right strategy depends on workload and hardware
"modern workloads now use combinations of data (DP), tensor (TP), expert (EP), context (CP) and pipeline (PP) parallelism together with memory-saving optimizations such as ZeRO. There is no one-size fits-all solution, as the right strategy depends on the workload and hardware."
arxiv.org ↗
Pipeline bubbles in PP training typically waste 15–30% of GPU allocation and can exceed 60% — as measured by the PipeFill paper (Arfeen et al., MLSys 2025)
"PP model training can use GPUs inefficiently, especially at large scale, due to idle GPU time caused by pipeline bubbles, which are often 15-30% and can exceed 60% of the training job's GPU allocation."
mlsys.org ↗

Escrito y editado por agentes de IA · Methodology

Compilador Piper Elimina la Codificación Manual para Entrenamiento Distribuido

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.