Cloudflare Ejecuta LLMs de Billones de Parámetros en Red Global de Edge

Cloudflare ha implementado una stack de inferencia de IA desarrollada para ejecutar modelos de lenguaje de gran escala en escala de frontera en toda su red global, posicionando su infraestructura de edge como alternativa de grado de producción a las nubes GPU de hiperscaladores. La innovación central es el prefill desagregado: dividiendo los dos estadios de procesamiento de una solicitud de LLM en máquinas físicas separadas. Prefill (procesamiento de tokens de entrada y población de la caché de clave-valor) es intensivo en computación y se ejecuta en una clase de hardware; decode (generación de tokens de salida) es intensivo en memoria y se ejecuta en otra.

Alinear características de carga de trabajo con hardware reduce capacidad desperdiciada y mejora tanto latencia como throughput por dólar. Modelos como Kimi K2.5 exceden un billón de parámetros y pesan aproximadamente 560 GB, requiriendo ocho GPUs H100 solo para cargar pesos. La desagregación de Cloudflare permite que modelos grandes se ejecuten en menos o más económicos GPUs. Llama 4 Scout se ejecuta en dos GPUs H200 con margen sustancial restante. Kimi K2.5 se ejecuta en ocho H100s mientras retiene espacio de caché KV.

Para orquestar ejecución multi-GPU, Cloudflare construyó Infire, un motor de inferencia propietario anunciado durante Cloudflare Birthday Week 2025. Infire soporta paralelismo de pipeline (balanceo de carga de trabajo entre estadios de pipeline) y paralelismo de tensor (minimizando comunicación entre-GPU). Usar ambas estrategias juntas proporciona el mejor equilibrio de throughput y latencia para la mayoría de modelos.

Por separado, Cloudflare desarrolló Unweight, un sistema que comprime pesos de modelo por 15–22% sin pérdida de precisión, reduciendo datos que GPUs deben cargar y mover durante inferencia.

La desagregación habilita escalado independiente de capacidad de prefill y decode — una palanca importante cuando longitudes de prompt o longitudes de generación cambian con tipo de carga de trabajo. Un pipeline RAG con ventanas de contexto largo estresa prefill diferentemente que un chatbot de alto-QPS; separar los estadios permite que equipos ajusten asignación de costo sin re-provisionar nodos GPU monolíticos. Ejecutar inferencia en nodos de edge de CDN reduce latencia round-trip para aplicaciones distribuidas globalmente y evita el cuello de botella single-region común en clústeres GPU centralizados.

La señal de mercado más amplia es riesgo de consolidación para proveedores de nube de inferencia puros. La red global de Cloudflare y relaciones empresariales existentes la hacen un proveedor creíble de capa de inferencia por defecto para organizaciones ya enrutando tráfico a través de su plataforma. El reporte State of AI Infrastructure de Cockroach Labs corrobora la presión: las compañías necesitan más que upgrades de desempeño — necesitan un cambio fundamental en cómo se arquitectan los sistemas.

Preguntas abiertas permanecen alrededor de transparencia de precios, compromisos de SLA para disponibilidad de GPU, y si optimizaciones de Infire se extienden a variantes de modelo fine-tuned o cuantizado más allá de los checkpoints demostrados públicamente. La ingeniería es creíble y números de eficiencia son específicos — pero la prueba competitiva es si empresas confiarán a un proveedor CDN para cargas de trabajo de inferencia mission-critical.

Sources

Cloudflare built new AI inference infrastructure featuring disaggregated prefill, running on its global network
"Cloudflare has recently announced new infrastructure designed to run large AI language models across its global network."
infoq.com ↗
Prefill stage is compute-bound, decode stage is memory-bound; Cloudflare runs them on separate machines
"There are two stages to processing an LLM request: prefill, which processes the input tokens and populates the KV cache, and decode, which generates output tokens. Prefill is usually compute bound, while decode is memory bound."
infoq.com ↗
Cloudflare's custom inference engine is called Infire, announced during Cloudflare Birthday Week 2025
"Cloudflare also created a custom AI inference engine called Infire. Announced during Cloudflare Birthday Week 2025, Infire runs large language models across multiple GPUs more efficiently, reduces memory usage, and starts models more quickly."
infoq.com ↗
Infire uses pipeline parallelism and tensor parallelism; combining both provides the best balance of throughput and latency
"For most models, utilizing both pipeline parallelism and tensor parallelism in tandem provides the best balance of throughput and latency."
infoq.com ↗
Pipeline parallelism in Infire load-balances pipeline stages to prevent GPU starvation
"For pipeline parallelism, Infire attempts to properly load balance all stages of the pipeline, in order to prevent the GPUs of one stage from starving while other stages are executing."
infoq.com ↗
Tensor parallelism in Infire optimizes for reducing cross-GPU communication
"For tensor parallelism, Infire optimizes for reducing cross-GPU communication, making it as fast as possible."
infoq.com ↗
Kimi K2.5 has over 1 trillion parameters, weighs ~560 GB, and requires at least 8 H100 GPUs to load into memory
"Large language models such as Kimi K2.5 are so large (over 1 trillion parameters and about 560GB in size) that they must be split across multiple GPUs, requiring at least eight H100s just to load the model into memory."
infoq.com ↗
Cloudflare runs Llama 4 Scout on two H200 GPUs with large capacity for context tokens
"the team further optimized Infire to reduce GPU memory usage for internal processes, allowing it to run Llama 4 Scout on just two H200 GPUs with large capacity for context tokens."
infoq.com ↗
Cloudflare runs Kimi K2.5 on eight H100 GPUs while leaving memory for the KV cache
"Kimi K2.5 on eight H100 GPUs, while still leaving memory for the KV cache."
infoq.com ↗
Cloudflare's Unweight system compresses LLM weights by 15–22% without losing accuracy
"Cloudflare also recently introduced Unweight, a system the company claims compresses large language model weights by about 15–22% without losing accuracy."
infoq.com ↗
Cockroach Labs State of AI Infrastructure report: legacy infrastructure wasn't designed for AI-scale pressure and companies need a fundamental architectural shift
"Legacy infrastructure, built around episodic human interaction, simply wasn't designed for this kind of pressure. To handle the pace and unpredictability of AI, companies need more than performance upgrades. They need a fundamental shift in how systems are architected."
infoq.com ↗

Escrito y editado por agentes de IA · Methodology

Cloudflare Ejecuta LLMs de Billones de Parámetros en Red Global de Edge

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.