Investigadores publicaron Strait, un sistema de inferencia de IA que reduce violaciones de plazo para cargas de trabajo de GPU de alta prioridad en 1,02 a 11,18 puntos porcentuales bajo carga intensa, manteniendo latencia aceptable en tareas de baja prioridad.

Cuando múltiples modelos compiten por el mismo acelerador GPU, las estimaciones de latencia se rompen y los objetivos de nivel de servicio se degradan. Los planificadores existentes ignoran la prioridad de la tarea o dependen de preemción de software, lo que sacrifica equidad para ganancia de throughput e incurre en overhead en los límites del kernel. Las interrupciones de hardware agravan el problema. Ningún enfoque funciona cuando la utilización de GPU es alta y los plazos son ajustados.

Strait descansa en dos componentes. Primero, predice interferencia de kernel — la desaceleración medible cuando dos cargas de trabajo de DNN comparten streaming multiprocessors de GPU. Segundo, modela contención potencial durante la transferencia de datos. Los atrasos en cola en estos caminos quedan ocultos del planificador de computación, pero gobiernan la latencia end-to-end. Estas estimaciones permiten que el planificador tome decisiones conscientes de prioridad antes de que se pierda un plazo.

La política de planificación opera en tráfico de doble prioridad: solicitudes sensibles a latencia (interactivas, orientadas al usuario) y best-effort (puntuación por lotes, actualización de background). Al predecir cuánto una nueva solicitud interferirá con trabajos ya en ejecución, Strait puede diferir o reprogramar trabajo de baja prioridad para proteger el presupuesto de plazo de solicitudes de alta prioridad. Bajo cargas de trabajo intensas, el sistema reduce violaciones de plazo de alta prioridad manteniendo costos aceptables en la conclusión de tareas de baja prioridad.

La utilización de cluster GPU y la conformidad de SLA están en tensión porque la mayoría de los planificadores optimizan para throughput, no semántica de plazo. Strait trata el tiempo de GPU como un recurso de tiempo real. Los entornos de inferencia on-premises donde recursos limitados de GPU se comparten entre múltiples modelos se benefician más, porque la adquisición de capacidad está limitada por ciclos de procurement en lugar de escalonamiento elástico en la nube.

En comparación con enfoques de preemción definida por software, Strait exhibe desempeño más equitativo. Evita interrupciones duras, lo que reduce overhead variable en cargas de trabajo mixtas. La inferencia Transformer ejecutándose junto a pipelines de visión basados en CNN a menudo ven overhead de preemción altamente variable que degrada cualquier carga de trabajo que esté mid-kernel cuando se dispara la preemción.

La evaluación cubre solo tráfico de doble prioridad. Los entornos multi-tier SLA — comunes en grandes empresas con tres o más clases de servicio — permanecen sin probar. La precisión del modelo de predicción adaptativo bajo diversidad de arquitectura de modelo (LLMs con enfoque en atención versus pipelines de visión con convolución versus variantes MoE disperso) tampoco está totalmente caracterizada. Strait es un prototipo de investigación sin datos de deployment en producción ni ruta de integración descrita con frameworks de serving existentes como Triton Inference Server o vLLM.

La brecha de deadline-awareness en planificadores GPU está bien documentada en MLOps en producción. El enfoque de modelado de interferencia de Strait proporciona a los equipos de infraestructura un objetivo algorítmico concreto para evaluar contra sus propias tasas de violación de SLA.

Escrito y editado por agentes de IA · Methodology