El compilador Piper permite el entrenamiento estilo DeepSeek a escala de miles de GPU

Piper, un compilador de entrenamiento distribuido de la Universidad de Washington, simplifica la composición compleja de paralelismo al tratarlo como un problema de compilación en lugar de una tarea manual de ingeniería de sistemas. El sistema está diseñado para el preentrenamiento de modelos de fundación, capaz de escalar a cientos o miles de aceleradores. Piper afirma la paridad de rendimiento con las implementaciones existentes de ZeRO en estrategias estándar y permite la programación conjunta de cómputo y comunicación en estrategias estrechamente compuestas como DualPipe de DeepSeek-V3.

La arquitectura de Piper separa la estrategia de paralelismo de alto nivel de los planes de ejecución por dispositivo de bajo nivel. Los usuarios adjuntan anotaciones de modelo y directivas de programación a la representación intermedia de Piper, un DAG global de entrenamiento unificado que representa explícitamente cada operador de cómputo y comunicación en todo el clúster. Piper compila este IR en planes de ejecución por dispositivo y los envía a través de un tiempo de ejecución distribuido que permanece agnóstico con respecto a la estrategia utilizada, ya sea un paralelismo de datos puro, un esquema de fragmentación de ZeRO-3 o una híbrido de tubería-experto personalizado. Esto contrasta con Megatron, DeepSpeed y TorchTitan, que ofrecen controles para cada dimensión de paralelismo pero los manejan como si las dimensiones fueran independientes, y con JAX/XLA, que expone la colocación genérica de tensores pero no puede soportar fácilmente programas de tubería arbitrarios o controlar recursos de dispositivo de granularidad fina, como la partición de streaming-multiprocessor.

El programa DualPipe de DeepSeek-V3 destaca las limitaciones de los marcos existentes. DualPipe comparte un GPU entre dos microlotes de tubería, dividiendo los streaming multiprocessors entre núcleos de cómputo hacia adelante y hacia atrás y comunicaciones de experto paralelas de todo a todo para ocultar la latencia. Los marcos de propósito general asumen que un microlote posee el dispositivo completo, por lo que esto requiere que expertos humanos ingenieren manualmente tanto el plan de fragmentación de alto nivel como las máscaras de asignación de SM de bajo nivel para ese modelo y clúster específicos. Piper simplifica esto al tratar DualPipe como un conjunto de transformaciones IR en el DAG global; el compilador deriva el plan de ejecución por dispositivo, incluido el entrelazado de núcleos y la partición de SM, sin requerir código de orquestación escrito a mano.

El artículo presenta un sistema prototipo con comparaciones de diseño; la evaluación se centra en el diseño del sistema y las comparaciones relativas en lugar de latencias de paso absolutas, curvas de eficiencia de escalado o mediciones de horas de GPU en topologías de hardware nombradas. Si bien los autores afirman la paridad de rendimiento con ZeRO en estrategias comunes y citan ganancias de memoria y rendimiento en programas compuestos, no proporcionan latencias de paso medidas, curvas de eficiencia de escalado, ahorros de horas de GPU o cifras de consumo de memoria en topologías de hardware específicas. Piper también es explícitamente controlable por el usuario en lugar de auto-sintonización: el arquitecto selecciona la estrategia de paralelismo y el marco solo reduce el costo de implementación en lugar de buscar en el espacio combinatorial de estrategias.

El artículo no aborda la brecha completa de producción. No cuantifica el overhead de compilación para DAGs de parámetros de billones, ni describe el comportamiento de tolerancia a fallos, la semántica de puntos de control o la visibilidad de depuración a escala de miles de GPU. Como Piper se posiciona como un reemplazo para las pilas existentes en lugar de un complemento, la adopción requeriría migrar las definiciones de modelos de Megatron, DeepSpeed o TorchTitan y revalidar la corrección numérica en un nuevo tiempo de ejecución completamente nuevo. La interfaz también deja la selección de estrategia como un problema abierto; Piper hace que una estrategia elegida sea ejecutable pero no ofrece ninguna guía sobre si FSDP combinado con paralelismo de tensor y tubería, o una variante personalizada de DualPipe, es la llamada óptima para una carga de trabajo y topología de clúster dada.

No hay evidencia de producción aún; traten a Piper como una señal de investigación de que los IR globales compilados para el entrenamiento distribuido están llegando, pero no asignen presupuesto de migración hasta que el código fuente y las mediciones de grandes clústers estén disponibles. Lo que se debe robar ahora es el desacoplamiento a nivel IR en sí: si su equipo de plataforma todavía está ajustando manualmente etapas de tubería y máscaras SM, comiencen a abstraer su gráfico de entrenamiento en un DAG global transformable antes de que su próxima reimpresión de pila los obligue a hacerlo.

Sources

Piper decouples strategy from runtime using a unified global training DAG (IR) and compiles per-device execution plans
"Piper allows users to declare a comprehensive distributed training strategy with a small set of model annotations and scheduling directives. Each directive applies a transformation on Piper's intermediate representation (IR), a unified global training DAG that represents all computation and communication."
arxiv.org ↗
Piper asserts performance parity with ZeRO and enables memory and throughput gains on composed strategies such as DualPipe
"We show that the combined system maintains performance parity on commonly available strategies such as ZeRO, while also enabling additional performance and memory efficiency gains through joint scheduling of compute and communication in composed parallelism strategies such as DeepSeek-V3's DualPipe."
arxiv.org ↗
Yi Pan is jointly affiliated with University of Washington and Shanghai Jiao Tong University
"Yi Pan University of Washington and Shanghai Jiao Tong UniversitySeattleWAUSA"
arxiv.org ↗
Deployed foundation-model training systems rely on human experts to manually design both high-level parallelism strategy and low-level execution
"Deployed systems for foundation model pretraining often rely on human experts to manually design a high-level parallelism strategy then implement the corresponding low-level execution strategy, making it difficult to adapt the system to new strategies."
arxiv.org ↗
Modern training workloads use combinations of DP, TP, EP, CP, PP and ZeRO across hundreds to thousands of accelerators
"Modern workloads now use combinations of data (DP), tensor (TP), expert (EP), context (CP) and pipeline (PP) parallelism together with memory-saving optimizations such as ZeRO. There is no one-size fits-all solution, as the right strategy depends on the workload and hardware."
arxiv.org ↗
Megatron, DeepSpeed, and TorchTitan offer knobs for each parallelism dimension but handle them as if the dimensions are independent, making joint scheduling difficult
"General-purpose frameworks such as Megatron, DeepSpeed, and TorchTitan offer a more flexible and model-agnostic interface, with knobs for tuning the distributed training strategy. However, these frameworks eagerly dispatch operations for each high-level parallelism dimension as if the dimensions are independent, making it challenging to jointly schedule operations from composed strategies."
arxiv.org ↗
DeepSeek-V3's DualPipe required hand-engineering SM allocation between compute and communication
"DeepSeek-V3 introduced DualPipe, a custom PP schedule that when composed with EP enables each device to use local micro-batch overlapping to hide EP communication overheads. This solution required human-engineered codesign of the high-level parallelism strategy with a hand-implemented per-device execution strategy to manage intra-GPU resources, such as the streaming multiprocessors (SMs) allocated to compute vs. communication."
arxiv.org ↗
JAX/XLA exposes generic tensor placement but cannot easily support arbitrary pipeline schedules or per-device resource control
"While compiler-based frameworks such as JAX/XLA present a more generic tensor placement abstraction instead of a fixed set of knobs, they cannot easily support arbitrary PP schedules nor control over each device's resources."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

El compilador Piper permite el entrenamiento estilo DeepSeek a escala de miles de GPU

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.