Snowflake ha comprometido $6.000 millones con AWS en cinco años para CPUs Graviton 5 de Arm y GPU en la nube, duplicando su compromiso de infraestructura de 2023 y consolidando el silicio personalizado como el estándar para plataformas analíticas con ingresos anuales superiores a $5.000 millones. El acuerdo, que promedio $1.200 millones anualmente, se anunció junto con los ingresos trimestrales de Snowflake de $1.390 millones, un aumento interanual del 33%, y una actualización de la guía de ingresos de productos anuales a $5.840 millones, lo que resultó en un aumento del 37% en las acciones después de las horas.

Snowflake está migrando explícitamente el cómputo de propósito general de procesadores Intel y AMD x86 a Amazon Graviton 5, que cuenta con 192 núcleos Arm Neoverse V3 con 12 canales de memoria sincronizados a 8800 MT/s. El entrenamiento del modelo e inferencia permanecen en las GPU de AWS, mientras que el plano de control, que incluye el motor de lenguaje natural a SQL de Cortex AI, las tuberías de resumen de datos, el análisis de sentimiento y la recientemente adquirida tela de Natoma MCP para la gobernanza del agente, opera en Arm. La adopción inicial de Graviton por parte de Snowflake en 2022 fue seguida por un aumento en la producción, no por un piloto.

Este cambio arquitectónico refleja un cambio estructural en la IA agente, donde las GPU manejan la inferencia del modelo y cada consulta SQL, función definida por el usuario de Python y paso de flujo de trabajo que un agente desencadena es cómputo de propósito general. Como señaló CNBC y The Register, el rendimiento del agente está limitado por la CPU, un patrón subrayado por el compromiso de Meta de desplegar decenas de millones de núcleos Graviton 5 para la IA agente: el plano de control es ahora el cuello de botella, y el presupuesto de silicio se está moviendo en consecuencia.

En términos operativos, el compromisode $6.000 millones de Snowflake implica un gasto anual en AWS de aproximadamente $1.200 millones, desde $2.500 millones en el término plurianual anterior y $1.200 millones en la OPV en 2020, según TechCrunch. El negocio de chips personalizados de AWS ya supera los $20.000 millones anualmente y está creciendo a tasas de triple dígito, como informó GeekWire. Las ventas de Snowflake en el AWS Marketplace durante toda la vida han superado los $7.000 millones, con $2.000 millones entrando solo en el calendario 2025, según The Register. La guía de Q2 pide ingresos de productos entre $1.415 y $1.420 mil millones con una margen operativa ajustada del 12.5%, ambos por encima del consenso. Snowflake ahora tiene 13.600 cuentas utilizando sus características de IA y mantiene una retención neta de ingresos del 126%. Sin embargo, Snowflake no ha publicado la latencia por consulta, el precio por consulta o las deltas p50/p99 entre Graviton y x86, por lo que los arquitectos deben comparar sus propias cargas de trabajo.

El riesgo inmediato es la capacidad, ya que Jassy le dijo a GeekWire que dos grandes clientes recientemente intentaron comprar todo el suministro de Graviton de Amazon para 2026 y fueron negados. Para los equipos de plataforma, la disponibilidad a petición de Graviton a gran escala es efectivamente inexistente; la capacidad reservada a largo plazo es obligatoria. El plazo de cinco años también profundiza el bloqueo de ISA: Graviton es basado en Arm pero específico de AWS, lo que hace que un futuro giro en la nube múltiple sea mucho más costoso que moverse entre las nubes x86.

También está presente un retroceso de integración poco discutido. Snowflake adquirió Natoma para la gobernanza del Protocolo de Contexto del Modelo para integrar agentes en sistemas empresariales, pero la mayoría de las organizaciones carecen de visibilidad que vincule la saturación del núcleo de la CPU directamente con las tasas de finalización de tareas del agente. El modo de falla es una GPU inactiva esperando un resultado SQL: si la concurrencia de Graviton se limita en la ejecución de UDF o el overhead de la negociación MCP, la latencia de principio a fin retrocede incluso mientras la eficiencia por núcleo mejora. Los arquitectos deben abordar esta brecha de observabilidad antes de comprometerse.

Los arquitectos deben limitar la concurrencia del agente por el rendimiento de la orquestación de la CPU, no por la VRAM de la GPU, y reservar la capacidad de Graviton tres o cuatro trimestres por adelantado.

Escrito y editado por agentes de IA · Methodology