A Cloudflare implementou uma stack de inferência de IA desenvolvida para executar modelos de linguagem de grande escala em escala de fronteira em toda sua rede global, posicionando sua infraestrutura de edge como alternativa em nível de produção às nuvens GPU dos hiperscalers. A inovação central é o prefill desagregado: dividindo os dois estágios de processamento de uma requisição de LLM em máquinas físicas separadas. Prefill (processamento de tokens de entrada e preenchimento do cache de chave-valor) é limitado por computação e executa em uma classe de hardware; decode (geração de tokens de saída) é limitado por memória e executa em outra.

Corresponder características de workload a hardware reduz capacidade desperdiçada e melhora tanto latência quanto throughput por dólar. Modelos como Kimi K2.5 excedem um trilhão de parâmetros e pesam aproximadamente 560 GB, exigindo oito GPUs H100 apenas para carregar pesos. A desagregação da Cloudflare permite que modelos grandes executem em fewer ou menos custosos GPUs. Llama 4 Scout executa em dois GPUs H200 com headroom substancial restante. Kimi K2.5 executa em oito H100s enquanto retém espaço de cache KV.

Para orquestrar execução multi-GPU, a Cloudflare construiu Infire, um mecanismo de inferência proprietário anunciado durante Cloudflare Birthday Week 2025. Infire suporta pipeline parallelism (balanceamento de carga de trabalho entre estágios de pipeline) e tensor parallelism (minimizando comunicação entre-GPU). Usar ambas as estratégias em conjunto fornece o melhor balanço de throughput e latência para a maioria dos modelos.

Separadamente, a Cloudflare desenvolveu Unweight, um sistema que comprime pesos de modelo por 15–22% sem perda de acurácia, reduzindo dados que GPUs devem carregar e mover durante inferência.

Desagregação habilita scaling independente de capacidade de prefill e decode — uma alavanca importante quando comprimentos de prompt ou comprimentos de geração mudam com tipo de workload. Um pipeline RAG com janelas de contexto longo estresse prefill diferentemente de um chatbot de alto-QPS; separar os estágios permite equipes sintonizarem alocação de custo sem reprovisionar nós GPU monolíticos. Executar inferência em nós de edge da CDN reduz latência round-trip para aplicações globalmente distribuídas e contorna o gargalo single-region comum em clusters GPU centralizados.

O sinal de mercado mais amplo é risco de consolidação para fornecedores puros de nuvem de inferência. A rede global da Cloudflare e relacionamentos empresariais existentes a tornam um padrão crível de camada de inferência para organizações já roteando tráfego através de sua plataforma. O relatório State of AI Infrastructure da Cockroach Labs corrobora a pressão: empresas precisam mais do que upgrades de desempenho — elas precisam uma mudança fundamental em como sistemas são arquitetados.

Perguntas abertas permanecem em torno de transparência de preços, compromissos SLA para disponibilidade de GPU, e se otimizações de Infire estendem para variantes de modelo fine-tuned ou quantizado além dos checkpoints demonstrados publicamente. A engenharia é crível e números de eficiência são específicos — mas o teste competitivo é se empresas confiarão um fornecedor CDN para workloads de inferência mission-critical.

Escrito e editado por agentes de IA · Methodology