Cloudflare Executa LLMs de Trilhões de Parâmetros em Rede Global de Edge

A Cloudflare implementou uma stack de inferência de IA desenvolvida para executar modelos de linguagem de grande escala em escala de fronteira em toda sua rede global, posicionando sua infraestrutura de edge como alternativa em nível de produção às nuvens GPU dos hiperscalers. A inovação central é o prefill desagregado: dividindo os dois estágios de processamento de uma requisição de LLM em máquinas físicas separadas. Prefill (processamento de tokens de entrada e preenchimento do cache de chave-valor) é limitado por computação e executa em uma classe de hardware; decode (geração de tokens de saída) é limitado por memória e executa em outra.

Corresponder características de workload a hardware reduz capacidade desperdiçada e melhora tanto latência quanto throughput por dólar. Modelos como Kimi K2.5 excedem um trilhão de parâmetros e pesam aproximadamente 560 GB, exigindo oito GPUs H100 apenas para carregar pesos. A desagregação da Cloudflare permite que modelos grandes executem em fewer ou menos custosos GPUs. Llama 4 Scout executa em dois GPUs H200 com headroom substancial restante. Kimi K2.5 executa em oito H100s enquanto retém espaço de cache KV.

Para orquestrar execução multi-GPU, a Cloudflare construiu Infire, um mecanismo de inferência proprietário anunciado durante Cloudflare Birthday Week 2025. Infire suporta pipeline parallelism (balanceamento de carga de trabalho entre estágios de pipeline) e tensor parallelism (minimizando comunicação entre-GPU). Usar ambas as estratégias em conjunto fornece o melhor balanço de throughput e latência para a maioria dos modelos.

Separadamente, a Cloudflare desenvolveu Unweight, um sistema que comprime pesos de modelo por 15–22% sem perda de acurácia, reduzindo dados que GPUs devem carregar e mover durante inferência.

Desagregação habilita scaling independente de capacidade de prefill e decode — uma alavanca importante quando comprimentos de prompt ou comprimentos de geração mudam com tipo de workload. Um pipeline RAG com janelas de contexto longo estresse prefill diferentemente de um chatbot de alto-QPS; separar os estágios permite equipes sintonizarem alocação de custo sem reprovisionar nós GPU monolíticos. Executar inferência em nós de edge da CDN reduz latência round-trip para aplicações globalmente distribuídas e contorna o gargalo single-region comum em clusters GPU centralizados.

O sinal de mercado mais amplo é risco de consolidação para fornecedores puros de nuvem de inferência. A rede global da Cloudflare e relacionamentos empresariais existentes a tornam um padrão crível de camada de inferência para organizações já roteando tráfego através de sua plataforma. O relatório State of AI Infrastructure da Cockroach Labs corrobora a pressão: empresas precisam mais do que upgrades de desempenho — elas precisam uma mudança fundamental em como sistemas são arquitetados.

Perguntas abertas permanecem em torno de transparência de preços, compromissos SLA para disponibilidade de GPU, e se otimizações de Infire estendem para variantes de modelo fine-tuned ou quantizado além dos checkpoints demonstrados publicamente. A engenharia é crível e números de eficiência são específicos — mas o teste competitivo é se empresas confiarão um fornecedor CDN para workloads de inferência mission-critical.

Sources

Cloudflare built new AI inference infrastructure featuring disaggregated prefill, running on its global network
"Cloudflare has recently announced new infrastructure designed to run large AI language models across its global network."
infoq.com ↗
Prefill stage is compute-bound, decode stage is memory-bound; Cloudflare runs them on separate machines
"There are two stages to processing an LLM request: prefill, which processes the input tokens and populates the KV cache, and decode, which generates output tokens. Prefill is usually compute bound, while decode is memory bound."
infoq.com ↗
Cloudflare's custom inference engine is called Infire, announced during Cloudflare Birthday Week 2025
"Cloudflare also created a custom AI inference engine called Infire. Announced during Cloudflare Birthday Week 2025, Infire runs large language models across multiple GPUs more efficiently, reduces memory usage, and starts models more quickly."
infoq.com ↗
Infire uses pipeline parallelism and tensor parallelism; combining both provides the best balance of throughput and latency
"For most models, utilizing both pipeline parallelism and tensor parallelism in tandem provides the best balance of throughput and latency."
infoq.com ↗
Pipeline parallelism in Infire load-balances pipeline stages to prevent GPU starvation
"For pipeline parallelism, Infire attempts to properly load balance all stages of the pipeline, in order to prevent the GPUs of one stage from starving while other stages are executing."
infoq.com ↗
Tensor parallelism in Infire optimizes for reducing cross-GPU communication
"For tensor parallelism, Infire optimizes for reducing cross-GPU communication, making it as fast as possible."
infoq.com ↗
Kimi K2.5 has over 1 trillion parameters, weighs ~560 GB, and requires at least 8 H100 GPUs to load into memory
"Large language models such as Kimi K2.5 are so large (over 1 trillion parameters and about 560GB in size) that they must be split across multiple GPUs, requiring at least eight H100s just to load the model into memory."
infoq.com ↗
Cloudflare runs Llama 4 Scout on two H200 GPUs with large capacity for context tokens
"the team further optimized Infire to reduce GPU memory usage for internal processes, allowing it to run Llama 4 Scout on just two H200 GPUs with large capacity for context tokens."
infoq.com ↗
Cloudflare runs Kimi K2.5 on eight H100 GPUs while leaving memory for the KV cache
"Kimi K2.5 on eight H100 GPUs, while still leaving memory for the KV cache."
infoq.com ↗
Cloudflare's Unweight system compresses LLM weights by 15–22% without losing accuracy
"Cloudflare also recently introduced Unweight, a system the company claims compresses large language model weights by about 15–22% without losing accuracy."
infoq.com ↗
Cockroach Labs State of AI Infrastructure report: legacy infrastructure wasn't designed for AI-scale pressure and companies need a fundamental architectural shift
"Legacy infrastructure, built around episodic human interaction, simply wasn't designed for this kind of pressure. To handle the pace and unpredictability of AI, companies need more than performance upgrades. They need a fundamental shift in how systems are architected."
infoq.com ↗

Escrito e editado por agentes de IA · Methodology

Cloudflare Executa LLMs de Trilhões de Parâmetros em Rede Global de Edge

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.