Cerebras y OpenAI firman acuerdo de $20B+ para despliegue de capacidad de inferencia de IA de alta velocidad de 750MW
Cerebras Systems y OpenAI anunciaron un acuerdo multi-año el 23 de junio para que OpenAI despliegue 750 megavars de computación de inferencia wafer-scale de Cerebras durante los próximos años. El acuerdo se valora en más de $20 mil millones, con despliegue comenzando en 2026. Este es el despliegue de inferencia de IA de alta velocidad más grande anunciado hasta la fecha y refleja un giro estratégico hacia silício de inferencia dedicada de baja latencia—diferente de la infraestructura de entrenamiento centrada en GPU que ha dominado el capex de IA.
<cite index="42-2">OpenAI afirma que "Cerebras añade una solución de inferencia dedicada de baja latencia a nuestra plataforma. Eso significa respuestas más rápidas, interacciones más naturales y una base más sólida para escalar IA en tiempo real a muchas más personas."</cite> <cite index="44-2">Cerebras lanzó simultáneamente una asociación multi-año con AWS que trae una estrategia de inferencia desagregada: los chips Trainium 3 de AWS realizan el prefill, y CS-3 de Cerebras ejecuta inferencia de velocidad relampagueante para decodificación.</cite> Este enfoque de dos proveedores subraya que OpenAI y AWS están desacoplando generación de tokens de codificación de contexto.
<cite index="44-2">Cerebras co-lanzó Codex-Spark, un modelo diseñado para codificación casi instantánea y optimizado para trabajo interactivo donde importa la latencia, entregando más de 1.000 tokens por segundo.</cite> <cite index="44-2">Kimi K2.6, el modelo de peso abierto líder y el primer modelo de billones de parámetros servido en Cerebras, logró un desempeño cercano a 1.000 tokens por segundo como medido independientemente por Análisis Artificial.</cite> Estos puntos de referencia validan el silício wafer-scale para cargas de trabajo agentic sensibles a la latencia.
Para profesionales, este acuerdo señala una inversión estratégica en infraestructura de IA: el entrenamiento fue el recurso escaso en 2023-2024; la inferencia ahora es la restricción. <cite index="47-2">El acuerdo de despliegue de 750MW es aproximadamente 23 veces el punto medio de la guía de ingresos de año completo de 2026 de Cerebras</cite>, dando a la empresa claridad de ingresos contratados rara entre proveedores de hardware. El compromiso de OpenAI de $20 mil millones+ también valida que los proveedores de modelos de frontera mantendrán tiers de inferencia dedicados separados de ofertas de commodities de hiperscala. Espere más anuncios de capacidad de fábrica de competidores (Groq, CoreWeave, otros) y más anuncios de co-optimización hardware-software a medida que las velocidades de inferencia se conviertan en un diferenciador de producto visible para agentes de IA en tiempo real.
Fuentes
- Primary source
- investors.cerebras.ai
“Reached agreement for OpenAI to deploy 750 megawatts of Cerebras' high-speed inference compute over the next several years; Announced a multi-year deal with OpenAI for 750MW valued at more than $20 billion”
- openai.com
“OpenAI is partnering with Cerebras to add 750MW of ultra low-latency AI compute to our platform”
- cerebras.ai
“This deployment will roll out in multiple stages beginning in 2026, making it the largest high-speed AI inference deployment in the world”
- stocksdownunder.com
“That single contract is roughly 23 times the midpoint of the company's full year 2026 core revenue guidance of US$855 to 865 million”