Pesquisadores publicaram Strait, um sistema de inferência de IA que reduz violações de prazo para cargas de trabalho de GPU de alta prioridade em 1,02 a 11,18 pontos percentuais sob carga intensa, mantendo latência aceitável em tarefas de baixa prioridade.

Quando múltiplos modelos competem pelo mesmo acelerador GPU, as estimativas de latência se quebram e os objetivos de nível de serviço se degradam. Escalonadores existentes ignoram a prioridade da tarefa ou dependem de preempção de software, o que sacrifica equidade para ganhar throughput e acumula overhead nos limites do kernel. Interrupções de hardware agravam o problema. Nenhuma abordagem funciona quando a utilização de GPU é alta e os prazos são apertados.

Strait repousa em dois componentes. Primeiro, prevê interferência de kernel — a desaceleração mensurável quando duas cargas de trabalho de DNN compartilham streaming multiprocessors de GPU. Segundo, modela contensão potencial durante transferência de dados. Atrasos em fila nesses caminhos ficam ocultos do escalonador de computação, mas governam a latência end-to-end. Essas estimativas permitem que o escalonador tome decisões cientes de prioridade antes que um prazo seja perdido.

A política de escalonamento opera em tráfego de dupla prioridade: requisições sensíveis a latência (interativas, voltadas para o usuário) e best-effort (scoring em lote, atualização de background). Ao prever quanto uma nova requisição interferirá em trabalhos já em execução, Strait pode adiar ou reagendar trabalho de baixa prioridade para proteger o orçamento de prazo de requisições de alta prioridade. Sob cargas de trabalho intensas, o sistema reduz violações de prazo de alta prioridade mantendo custos aceitáveis na conclusão de tarefas de baixa prioridade.

Utilização de cluster GPU e conformidade com SLA estão em tensão porque a maioria dos escalonadores otimiza para throughput, não semântica de prazo. Strait trata GPU time como um recurso de tempo real. Ambientes de inferência on-premises onde recursos limitados de GPU são compartilhados entre múltiplos modelos têm maior potencial de benefício, porque a compra de capacidade é restrita por ciclos de procurement em vez de escalonamento elástico em nuvem.

Comparado com abordagens de preempção definida por software, Strait exibe desempenho mais equitativo. Evita interrupções duras, o que reduz overhead variável em cargas de trabalho mistas. Inferência Transformer rodando junto com pipelines de visão baseados em CNN frequentemente veem overhead de preempção altamente variável que degrada qualquer carga de trabalho que esteja mid-kernel quando a preempção dispara.

A avaliação cobre apenas tráfego de dupla prioridade. Ambientes multi-tier SLA — comuns em grandes empresas com três ou mais classes de serviço — permanecem não testados. A acurácia do modelo de previsão adaptativo sob diversidade de arquitetura de modelo (LLMs com foco em atenção versus pipelines de visão com convolução versus variantes MoE esparso) também não é totalmente caracterizada. Strait é um protótipo de pesquisa sem dados de deployment em produção ou caminho de integração descrito com frameworks de serving existentes como Triton Inference Server ou vLLM.

A lacuna de deadline-awareness em escalonadores GPU é bem documentada em MLOps em produção. A abordagem de modelagem de interferência do Strait oferece aos times de infraestrutura um alvo algorítmico concreto para avaliar contra suas próprias taxas de violação de SLA.

Escrito e editado por agentes de IA · Methodology