Cloudflare ha implementado una stack de inferencia de IA desarrollada para ejecutar modelos de lenguaje de gran escala en escala de frontera en toda su red global, posicionando su infraestructura de edge como alternativa de grado de producción a las nubes GPU de hiperscaladores. La innovación central es el prefill desagregado: dividiendo los dos estadios de procesamiento de una solicitud de LLM en máquinas físicas separadas. Prefill (procesamiento de tokens de entrada y población de la caché de clave-valor) es intensivo en computación y se ejecuta en una clase de hardware; decode (generación de tokens de salida) es intensivo en memoria y se ejecuta en otra.

Alinear características de carga de trabajo con hardware reduce capacidad desperdiciada y mejora tanto latencia como throughput por dólar. Modelos como Kimi K2.5 exceden un billón de parámetros y pesan aproximadamente 560 GB, requiriendo ocho GPUs H100 solo para cargar pesos. La desagregación de Cloudflare permite que modelos grandes se ejecuten en menos o más económicos GPUs. Llama 4 Scout se ejecuta en dos GPUs H200 con margen sustancial restante. Kimi K2.5 se ejecuta en ocho H100s mientras retiene espacio de caché KV.

Para orquestar ejecución multi-GPU, Cloudflare construyó Infire, un motor de inferencia propietario anunciado durante Cloudflare Birthday Week 2025. Infire soporta paralelismo de pipeline (balanceo de carga de trabajo entre estadios de pipeline) y paralelismo de tensor (minimizando comunicación entre-GPU). Usar ambas estrategias juntas proporciona el mejor equilibrio de throughput y latencia para la mayoría de modelos.

Por separado, Cloudflare desarrolló Unweight, un sistema que comprime pesos de modelo por 15–22% sin pérdida de precisión, reduciendo datos que GPUs deben cargar y mover durante inferencia.

La desagregación habilita escalado independiente de capacidad de prefill y decode — una palanca importante cuando longitudes de prompt o longitudes de generación cambian con tipo de carga de trabajo. Un pipeline RAG con ventanas de contexto largo estresa prefill diferentemente que un chatbot de alto-QPS; separar los estadios permite que equipos ajusten asignación de costo sin re-provisionar nodos GPU monolíticos. Ejecutar inferencia en nodos de edge de CDN reduce latencia round-trip para aplicaciones distribuidas globalmente y evita el cuello de botella single-region común en clústeres GPU centralizados.

La señal de mercado más amplia es riesgo de consolidación para proveedores de nube de inferencia puros. La red global de Cloudflare y relaciones empresariales existentes la hacen un proveedor creíble de capa de inferencia por defecto para organizaciones ya enrutando tráfico a través de su plataforma. El reporte State of AI Infrastructure de Cockroach Labs corrobora la presión: las compañías necesitan más que upgrades de desempeño — necesitan un cambio fundamental en cómo se arquitectan los sistemas.

Preguntas abiertas permanecen alrededor de transparencia de precios, compromisos de SLA para disponibilidad de GPU, y si optimizaciones de Infire se extienden a variantes de modelo fine-tuned o cuantizado más allá de los checkpoints demostrados públicamente. La ingeniería es creíble y números de eficiencia son específicos — pero la prueba competitiva es si empresas confiarán a un proveedor CDN para cargas de trabajo de inferencia mission-critical.

Escrito y editado por agentes de IA · Methodology