RRFP Alcanza 2.77× de Throughput en Entrenamiento Pipeline-Parallel Multimodal

Paper aborda el cuello de botella del paralelismo de pipeline durante el entrenamiento de modelos grandes: cuando la readiness de tareas diverge del orden de ejecución pre-comprometido, los estágios quedan inactivos incluso con trabajo disponible. Un nuevo planificador adaptativo reordena dinámicamente la ejecución para eliminar burbujas de tiempo de espera. Ángulo de trainer: mejora medida en jobs multi-nodo reales; aplicable a equipos entrenando modelos >100B params con pipeline parallelism distribuido.

La Universidad Tsinghua y Scitix AI han publicado RRFP (Runtime-Readiness-First Pipeline), un rediseño de planificador para entrenamiento pipeline-parallel. El sistema trata los schedules de ejecución como hints en lugar de órdenes estrictas e informa hasta 2.77× de mejora en throughput en cargas de trabajo multimodal con 128 GPUs, sin regresión en la corrección del entrenamiento.

RRFP aborda la alineación incorrecta de estágios bajo variabilidad de runtime. Sistemas existentes como Megatron-LM y DeepSpeed se comprometen con un orden de ejecución antes del dispatch de trabajo. Cuando la readiness real de tareas diverge de la secuencia comprometida—debido a jitter de computación, jitter de comunicación, o varianza de longitud de entrada entre microbatches—los estágios quedan inactivos incluso cuando hay otro trabajo ejecutable disponible. El pre-commitment crea burbujas que la programación adaptativa por sí sola no puede resolver porque el runtime espera el orden planeado.

RRFP desacopla el ordenamiento de la ejecución. En cada estágio de pipeline, el runtime construye un conjunto listo de tareas actualmente ejecutables y utiliza el schedule solo como señal de ranking—un orden de hint. Si la tarea de rango más alto no está lista, RRFP la salta y dispatcha el siguiente elemento listo en lugar de bloquearse. Tres mecanismos habilitan esto: comunicación asíncrona impulsada por mensajes para que los estágios se enteren de la readiness de tareas sin polling, coordinación ligera tensor-parallel para preservar la collective consistency entre grupos TP, y una capa de arbitraje ready-set para decisiones de dispatch de bajo overhead. El framework se ejecuta como un runtime de entrenamiento basado en Megatron, por lo que los equipos ya en Megatron pueden adoptarlo como una capa de runtime sin una reescritura completa del planificador.

La evaluación abarca cargas de trabajo language-only y multimodal con hasta 128 GPUs. Comparado con baselines 1F1B de orden fijo, RRFP con el hint BFW (Breadth-First Weighted) logra hasta 1.77× speedup en trabajos language-only y hasta 2.77× en trabajos multimodal. Las ganancias multimodal son mayores porque las entradas de imagen-texto de longitud variable producen varianza de computación inter-microbatch pronunciada—exactamente la condición donde el orden pre-comprometido se convierte en un pasivo. En comparaciones cross-framework utilizando el hint BF predeterminado, RRFP supera el sistema de pipeline más rápido disponible externamente hasta por 1.84×. Ninguna figura de tipo GPU, tamaño de modelo, latencia por-iteración o tokens-por-segundo se divulga en el preprint—solo ratios de speedup relativos a baselines ejecutados en el mismo ambiente.

La garantía de corrección de RRFP depende del mecanismo de coordinación tensor-parallel para mantener la collective consistency cuando el orden de dispatch de microbatch cambia entre ranks TP. El paper afirma que la corrección del entrenamiento se preserva; sin embargo, el mecanismo añade overhead de coordinación que crece con el TP degree. Los equipos que ejecutan configuraciones de alto TP-degree (TP=8 o superior) deben validar este overhead empíricamente. El preprint no informa mediciones de overhead para la capa de arbitraje y coordinación de forma aislada, por lo que el costo neto en conteos altos de GPU sigue siendo desconocido.

Una segunda brecha: las ganancias de RRFP se miden frente a baselines de orden fijo. La comparación contra "el sistema de pipeline más rápido disponible externamente" no tiene atribución—el paper no nombra cuál sistema. Los arquitectos que evalúan la adopción no pueden determinar si ese baseline es Megatron-LM stock, Varuna, o algo más reciente sin leer los apéndices.

No se reporta ningún despliegue en producción. Este es un preprint de Tsinghua y Scitix AI; ningún operador de cluster ha publicado números de una ejecución de entrenamiento en vivo. Las ganancias son internamente consistentes y el mecanismo es válido. La transferibilidad depende del TP degree, profundidad del pipeline, y cuánta variabilidad de runtime genera tu carga de trabajo. Si ejecutas trabajos pipeline-parallel en cargas de trabajo multimodal o MoE donde la varianza de computación por-microbatch es alta, el patrón hint-then-dispatch de RRFP aborda directamente el problema de burbujas que la programación adaptativa por sí sola no puede resolver.

Sources

RRFP achieves up to 1.77× speedup on language-only workloads using the BFW hint
"Using the BFW hint, RRFP achieves up to 1.77× speedup on language-only workloads and up to 2.77× on multimodal workloads."
arxiv.org ↗
RRFP achieves up to 2.77× speedup on multimodal workloads using the BFW hint
"Using the BFW hint, RRFP achieves up to 1.77× speedup on language-only workloads and up to 2.77× on multimodal workloads."
arxiv.org ↗
RRFP outperforms the fastest available external pipeline system by up to 1.84× using the BF hint
"RRFP with the default BF hint outperforms the faster available external system by up to 1.84× while preserving training correctness."
arxiv.org ↗
RRFP is evaluated on up to 128 GPUs across language-only and multimodal workloads
"We implement RRFP in a Megatron-based training framework and evaluate it on language-only and multimodal workloads at up to 128 GPUs."
arxiv.org ↗
RRFP uses message-driven asynchronous communication, lightweight tensor-parallel coordination, and ready-set arbitration
"RRFP combines message-driven asynchronous communication, lightweight tensor-parallel coordination for collective consistency, and ready-set arbitration for low-overhead dispatch."
arxiv.org ↗
The paper is authored by researchers from Tsinghua University and Scitix AI
"Ruitao Liu1 Xinyang Tian1 Shuo Chen1 Tingrui Zhang1 Guang Yang1 Alan Zhao2 Wei Xu1 1Tsinghua University 2Scitix AI"
arxiv.org ↗
Existing systems treat a pre-committed execution order as a strict sequence stages must follow, causing idle bubbles when task readiness diverges from the plan
"stages may wait for not-yet-ready work even though other executable work is available, creating stage misalignment, idle bubbles, and reduced utilization"
arxiv.org ↗
RRFP treats the schedule as a non-binding hint order for ranking currently ready work rather than a strict execution sequence
"it treats the schedule as a non-binding hint order for ranking currently ready work"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

RRFP Alcanza 2.77× de Throughput en Entrenamiento Pipeline-Parallel Multimodal

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.