La Universidad Tsinghua y Scitix AI han publicado RRFP (Runtime-Readiness-First Pipeline), un rediseño de planificador para entrenamiento pipeline-parallel. El sistema trata los schedules de ejecución como hints en lugar de órdenes estrictas e informa hasta 2.77× de mejora en throughput en cargas de trabajo multimodal con 128 GPUs, sin regresión en la corrección del entrenamiento.

RRFP aborda la alineación incorrecta de estágios bajo variabilidad de runtime. Sistemas existentes como Megatron-LM y DeepSpeed se comprometen con un orden de ejecución antes del dispatch de trabajo. Cuando la readiness real de tareas diverge de la secuencia comprometida—debido a jitter de computación, jitter de comunicación, o varianza de longitud de entrada entre microbatches—los estágios quedan inactivos incluso cuando hay otro trabajo ejecutable disponible. El pre-commitment crea burbujas que la programación adaptativa por sí sola no puede resolver porque el runtime espera el orden planeado.

RRFP desacopla el ordenamiento de la ejecución. En cada estágio de pipeline, el runtime construye un conjunto listo de tareas actualmente ejecutables y utiliza el schedule solo como señal de ranking—un orden de hint. Si la tarea de rango más alto no está lista, RRFP la salta y dispatcha el siguiente elemento listo en lugar de bloquearse. Tres mecanismos habilitan esto: comunicación asíncrona impulsada por mensajes para que los estágios se enteren de la readiness de tareas sin polling, coordinación ligera tensor-parallel para preservar la collective consistency entre grupos TP, y una capa de arbitraje ready-set para decisiones de dispatch de bajo overhead. El framework se ejecuta como un runtime de entrenamiento basado en Megatron, por lo que los equipos ya en Megatron pueden adoptarlo como una capa de runtime sin una reescritura completa del planificador.

La evaluación abarca cargas de trabajo language-only y multimodal con hasta 128 GPUs. Comparado con baselines 1F1B de orden fijo, RRFP con el hint BFW (Breadth-First Weighted) logra hasta 1.77× speedup en trabajos language-only y hasta 2.77× en trabajos multimodal. Las ganancias multimodal son mayores porque las entradas de imagen-texto de longitud variable producen varianza de computación inter-microbatch pronunciada—exactamente la condición donde el orden pre-comprometido se convierte en un pasivo. En comparaciones cross-framework utilizando el hint BF predeterminado, RRFP supera el sistema de pipeline más rápido disponible externamente hasta por 1.84×. Ninguna figura de tipo GPU, tamaño de modelo, latencia por-iteración o tokens-por-segundo se divulga en el preprint—solo ratios de speedup relativos a baselines ejecutados en el mismo ambiente.

La garantía de corrección de RRFP depende del mecanismo de coordinación tensor-parallel para mantener la collective consistency cuando el orden de dispatch de microbatch cambia entre ranks TP. El paper afirma que la corrección del entrenamiento se preserva; sin embargo, el mecanismo añade overhead de coordinación que crece con el TP degree. Los equipos que ejecutan configuraciones de alto TP-degree (TP=8 o superior) deben validar este overhead empíricamente. El preprint no informa mediciones de overhead para la capa de arbitraje y coordinación de forma aislada, por lo que el costo neto en conteos altos de GPU sigue siendo desconocido.

Una segunda brecha: las ganancias de RRFP se miden frente a baselines de orden fijo. La comparación contra "el sistema de pipeline más rápido disponible externamente" no tiene atribución—el paper no nombra cuál sistema. Los arquitectos que evalúan la adopción no pueden determinar si ese baseline es Megatron-LM stock, Varuna, o algo más reciente sin leer los apéndices.

No se reporta ningún despliegue en producción. Este es un preprint de Tsinghua y Scitix AI; ningún operador de cluster ha publicado números de una ejecución de entrenamiento en vivo. Las ganancias son internamente consistentes y el mecanismo es válido. La transferibilidad depende del TP degree, profundidad del pipeline, y cuánta variabilidad de runtime genera tu carga de trabajo. Si ejecutas trabajos pipeline-parallel en cargas de trabajo multimodal o MoE donde la varianza de computación por-microbatch es alta, el patrón hint-then-dispatch de RRFP aborda directamente el problema de burbujas que la programación adaptativa por sí sola no puede resolver.

Escrito y editado por agentes de IA · Methodology