Strait reduz violações de prazo de GPU de alta prioridade em 11 pontos

Pesquisadores publicaram Strait, um sistema de inferência de IA que reduz violações de prazo para cargas de trabalho de GPU de alta prioridade em 1,02 a 11,18 pontos percentuais sob carga intensa, mantendo latência aceitável em tarefas de baixa prioridade.

Quando múltiplos modelos competem pelo mesmo acelerador GPU, as estimativas de latência se quebram e os objetivos de nível de serviço se degradam. Escalonadores existentes ignoram a prioridade da tarefa ou dependem de preempção de software, o que sacrifica equidade para ganhar throughput e acumula overhead nos limites do kernel. Interrupções de hardware agravam o problema. Nenhuma abordagem funciona quando a utilização de GPU é alta e os prazos são apertados.

Strait repousa em dois componentes. Primeiro, prevê interferência de kernel — a desaceleração mensurável quando duas cargas de trabalho de DNN compartilham streaming multiprocessors de GPU. Segundo, modela contensão potencial durante transferência de dados. Atrasos em fila nesses caminhos ficam ocultos do escalonador de computação, mas governam a latência end-to-end. Essas estimativas permitem que o escalonador tome decisões cientes de prioridade antes que um prazo seja perdido.

A política de escalonamento opera em tráfego de dupla prioridade: requisições sensíveis a latência (interativas, voltadas para o usuário) e best-effort (scoring em lote, atualização de background). Ao prever quanto uma nova requisição interferirá em trabalhos já em execução, Strait pode adiar ou reagendar trabalho de baixa prioridade para proteger o orçamento de prazo de requisições de alta prioridade. Sob cargas de trabalho intensas, o sistema reduz violações de prazo de alta prioridade mantendo custos aceitáveis na conclusão de tarefas de baixa prioridade.

Utilização de cluster GPU e conformidade com SLA estão em tensão porque a maioria dos escalonadores otimiza para throughput, não semântica de prazo. Strait trata GPU time como um recurso de tempo real. Ambientes de inferência on-premises onde recursos limitados de GPU são compartilhados entre múltiplos modelos têm maior potencial de benefício, porque a compra de capacidade é restrita por ciclos de procurement em vez de escalonamento elástico em nuvem.

Comparado com abordagens de preempção definida por software, Strait exibe desempenho mais equitativo. Evita interrupções duras, o que reduz overhead variável em cargas de trabalho mistas. Inferência Transformer rodando junto com pipelines de visão baseados em CNN frequentemente veem overhead de preempção altamente variável que degrada qualquer carga de trabalho que esteja mid-kernel quando a preempção dispara.

A avaliação cobre apenas tráfego de dupla prioridade. Ambientes multi-tier SLA — comuns em grandes empresas com três ou mais classes de serviço — permanecem não testados. A acurácia do modelo de previsão adaptativo sob diversidade de arquitetura de modelo (LLMs com foco em atenção versus pipelines de visão com convolução versus variantes MoE esparso) também não é totalmente caracterizada. Strait é um protótipo de pesquisa sem dados de deployment em produção ou caminho de integração descrito com frameworks de serving existentes como Triton Inference Server ou vLLM.

A lacuna de deadline-awareness em escalonadores GPU é bem documentada em MLOps em produção. A abordagem de modelagem de interferência do Strait oferece aos times de infraestrutura um alvo algorítmico concreto para avaliar contra suas próprias taxas de violação de SLA.

Sources

Strait reduces deadline violations for high-priority tasks by 1.02 to 11.18 percentage points under intense workloads
"Strait reduces deadline violations for high-priority tasks by 1.02 to 11.18 percentage points while incurring acceptable costs on low-priority tasks"
arxiv.org ↗
Strait incurs acceptable costs on low-priority tasks
"while incurring acceptable costs on low-priority tasks"
arxiv.org ↗
Strait models potential contention during data transfer and accounts for kernel execution interference through an adaptive prediction model
"Strait models potential contention during data transfer and accounts for kernel execution interference through an adaptive prediction model"
arxiv.org ↗
Strait targets dual-priority inference traffic under high GPU utilization
"a serving system designed to enhance deadline satisfaction for dual-priority inference traffic under high GPU utilization"
arxiv.org ↗
Compared to software-defined preemption approaches, Strait exhibits more equitable performance
"Compared to software-defined preemption approaches, Strait also exhibits more equitable performance"
arxiv.org ↗
Strait is designed for on-premises inference scenarios where limited GPU resources are shared across multiple models
"limited support for task prioritization and insufficient latency estimation under concurrent execution may restrict their applicability in on-premises scenarios"
arxiv.org ↗
Strait was authored by Haidong Zhao and Nikolaos Georgantas and published April 30, 2026
"AUTHORS: Haidong Zhao, Nikolaos Georgantas — PUBLISHED: 2026-04-30"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Strait reduz violações de prazo de GPU de alta prioridade em 11 pontos

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.