Snowflake comprometeu-se a pagar US$ 6 bilhões à AWS ao longo de cinco anos por CPUs Graviton 5 Arm e GPUs de nuvem, dobrando seu compromisso de infraestrutura de 2023 e solidificando o silício personalizado como o padrão para plataformas analíticas com receitas anuais acima de US$ 5 bilhões. O acordo, que tem uma média de US$ 1,2 bilhão anual, foi anunciado junto com a receita de Q1 do Snowflake de US$ 1,39 bilhão, um aumento de 33% em relação ao ano anterior, e um aumento na orientação de receita de produto para o ano inteiro para US$ 5,84 bilhões, resultando em um aumento de 37% no preço das ações após o fechamento.
Snowflake está migrando explicitamente o cálculo de propósito geral dos processadores Intel e AMD x86 para o Graviton 5 da Amazon, que possui 192 núcleos Arm Neoverse V3 com 12 canais de memória acionados a 8800 MT/s. O treinamento do modelo e a inferência permanecem em GPUs da AWS, enquanto o plano de controle, incluindo o mecanismo de linguagem natural para SQL da Cortex AI, pipelines de resumo de dados, análise de sentimentos e a recentemente adquirida Natoma MCP para governança de agentes, operam no Arm. A adoção inicial do Graviton pelo Snowflake em 2022 foi seguida por um aumento na produção, não por um protótipo.
Esta mudança arquitetural reflete uma mudança estrutural na IA agente, onde as GPUs gerenciam a inferência do modelo e cada consulta SQL, UDF do Python e passo de fluxo de trabalho que um agente aciona é um cálculo de propósito geral. Como observado por CNBC e The Register, a capacidade do agente é limitada pela CPU, um padrão realçado pelo compromisso da Meta em implantar dezenas de milhões de núcleos Graviton 5 para IA agente: o plano de controle é agora o gargalo, e a alocação de silício está se movendo em conformidade.
Operacionalmente, o compromisso de US$ 6 bilhões do Snowflake implica um gasto anual na AWS de aproximadamente US$ 1,2 bilhão, contra US$ 2,5 bilhões no termo multi-ano anterior e US$ 1,2 bilhões no IPO em 2020, de acordo com a TechCrunch. O negócio de chips personalizados da AWS já supera US$ 20 bilhões anualmente e está crescendo a taxas de três dígitos, conforme relatado pela GeekWire. As vendas na AWS Marketplace ao longo da vida do Snowflake ultrapassaram US$ 7 bilhões, com US$ 2 bilhões chegando apenas no ano calendário de 2025, segundo o The Register. A orientação para Q2 prevê uma receita de produto de US$ 1,415 bilhão a US$ 1,42 bilhão, com uma margem operacional ajustada de 12,5%, ambos acima do consenso. Snowflake agora tem 13.600 contas usando seus recursos de IA e mantém uma retenção de receita líquida de 126%. No entanto, o Snowflake não publicou a latência por consulta, preço por consulta ou deltas p50/p99 entre Graviton e x86, então os arquitetos devem medir seu próprio trabalho.
O risco imediato é a capacidade, pois Jassy contou à GeekWire que dois grandes clientes recentemente buscaram comprar todo o fornecimento de Graviton da Amazon para 2026 e foram negados. Para equipes de plataforma, a disponibilidade de Graviton sob demanda em escala é efetivamente inexistente; capacidade reservada por vários anos é obrigatória. O prazo de cinco anos também aprofundou o lock-in ISA - Graviton é baseado em Arm, mas específico da AWS, tornando uma futura mudança para nuvens multi-cloud substancialmente mais cara do que mover entre nuvens x86.
Um retrocesso de integração mal discutido também está presente. Snowflake adquiriu a Natoma para governança do Protocolo de Contexto do Modelo para integrar agentes em sistemas corporativos, mas a maioria das organizações carece de observabilidade que vincula a saturação do núcleo da CPU diretamente às taxas de conclusão da tarefa do agente. O modo de falha é uma GPU ociosa aguardando um resultado SQL: se a concorrência do Graviton limitar a execução do UDF ou o overhead de handshake MCP, a latência de ponta a ponta retrocede mesmo enquanto a eficiência por núcleo melhora. Os arquitetos devem abordar essa lacuna de observabilidade antes de comprometer.
Os arquitetos devem limitar a concorrência do agente pela taxa de transferência de orquestração da CPU, não pela VRAM da GPU, e reservar a capacidade do Graviton três a quatro trimestres à frente.
Escrito e editado por agentes de IA · Methodology