Strait reduce violaciones de plazo de GPU de alta prioridad en 11 puntos

Investigadores publicaron Strait, un sistema de inferencia de IA que reduce violaciones de plazo para cargas de trabajo de GPU de alta prioridad en 1,02 a 11,18 puntos porcentuales bajo carga intensa, manteniendo latencia aceptable en tareas de baja prioridad.

Cuando múltiples modelos compiten por el mismo acelerador GPU, las estimaciones de latencia se rompen y los objetivos de nivel de servicio se degradan. Los planificadores existentes ignoran la prioridad de la tarea o dependen de preemción de software, lo que sacrifica equidad para ganancia de throughput e incurre en overhead en los límites del kernel. Las interrupciones de hardware agravan el problema. Ningún enfoque funciona cuando la utilización de GPU es alta y los plazos son ajustados.

Strait descansa en dos componentes. Primero, predice interferencia de kernel — la desaceleración medible cuando dos cargas de trabajo de DNN comparten streaming multiprocessors de GPU. Segundo, modela contención potencial durante la transferencia de datos. Los atrasos en cola en estos caminos quedan ocultos del planificador de computación, pero gobiernan la latencia end-to-end. Estas estimaciones permiten que el planificador tome decisiones conscientes de prioridad antes de que se pierda un plazo.

La política de planificación opera en tráfico de doble prioridad: solicitudes sensibles a latencia (interactivas, orientadas al usuario) y best-effort (puntuación por lotes, actualización de background). Al predecir cuánto una nueva solicitud interferirá con trabajos ya en ejecución, Strait puede diferir o reprogramar trabajo de baja prioridad para proteger el presupuesto de plazo de solicitudes de alta prioridad. Bajo cargas de trabajo intensas, el sistema reduce violaciones de plazo de alta prioridad manteniendo costos aceptables en la conclusión de tareas de baja prioridad.

La utilización de cluster GPU y la conformidad de SLA están en tensión porque la mayoría de los planificadores optimizan para throughput, no semántica de plazo. Strait trata el tiempo de GPU como un recurso de tiempo real. Los entornos de inferencia on-premises donde recursos limitados de GPU se comparten entre múltiples modelos se benefician más, porque la adquisición de capacidad está limitada por ciclos de procurement en lugar de escalonamiento elástico en la nube.

En comparación con enfoques de preemción definida por software, Strait exhibe desempeño más equitativo. Evita interrupciones duras, lo que reduce overhead variable en cargas de trabajo mixtas. La inferencia Transformer ejecutándose junto a pipelines de visión basados en CNN a menudo ven overhead de preemción altamente variable que degrada cualquier carga de trabajo que esté mid-kernel cuando se dispara la preemción.

La evaluación cubre solo tráfico de doble prioridad. Los entornos multi-tier SLA — comunes en grandes empresas con tres o más clases de servicio — permanecen sin probar. La precisión del modelo de predicción adaptativo bajo diversidad de arquitectura de modelo (LLMs con enfoque en atención versus pipelines de visión con convolución versus variantes MoE disperso) tampoco está totalmente caracterizada. Strait es un prototipo de investigación sin datos de deployment en producción ni ruta de integración descrita con frameworks de serving existentes como Triton Inference Server o vLLM.

La brecha de deadline-awareness en planificadores GPU está bien documentada en MLOps en producción. El enfoque de modelado de interferencia de Strait proporciona a los equipos de infraestructura un objetivo algorítmico concreto para evaluar contra sus propias tasas de violación de SLA.

Sources

Strait reduces deadline violations for high-priority tasks by 1.02 to 11.18 percentage points under intense workloads
"Strait reduces deadline violations for high-priority tasks by 1.02 to 11.18 percentage points while incurring acceptable costs on low-priority tasks"
arxiv.org ↗
Strait incurs acceptable costs on low-priority tasks
"while incurring acceptable costs on low-priority tasks"
arxiv.org ↗
Strait models potential contention during data transfer and accounts for kernel execution interference through an adaptive prediction model
"Strait models potential contention during data transfer and accounts for kernel execution interference through an adaptive prediction model"
arxiv.org ↗
Strait targets dual-priority inference traffic under high GPU utilization
"a serving system designed to enhance deadline satisfaction for dual-priority inference traffic under high GPU utilization"
arxiv.org ↗
Compared to software-defined preemption approaches, Strait exhibits more equitable performance
"Compared to software-defined preemption approaches, Strait also exhibits more equitable performance"
arxiv.org ↗
Strait is designed for on-premises inference scenarios where limited GPU resources are shared across multiple models
"limited support for task prioritization and insufficient latency estimation under concurrent execution may restrict their applicability in on-premises scenarios"
arxiv.org ↗
Strait was authored by Haidong Zhao and Nikolaos Georgantas and published April 30, 2026
"AUTHORS: Haidong Zhao, Nikolaos Georgantas — PUBLISHED: 2026-04-30"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Strait reduce violaciones de plazo de GPU de alta prioridad en 11 puntos

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.