Os preços dos contratos de DRAM dispararam 90-95% no Q1 de 2026 e são esperados para aumentar entre 58-63% no Q2, a maior subida trimestral registrada, de acordo com a TrendForce. Isso elevou os custos de memória para aproximadamente 35% dos custos de montagem de PCs, levando a Nvidia a aumentar o preço do DGX Spark desktop em US$ 700 para US$ 4.699. A AMD está preparando para o lançamento no Q3 de um APU Gorgon Halo de 192GB.

A alta é principalmente devido à alocação de wafers, com Samsung, SK Hynix e Micron transferindo capacidade para HBM3E e HBM4 para aceleradores de datacenter, onde as margens são maiores. Isso aprisionou o fornecimento convencional de DRAM. O presidente do grupo SK, Chey Tae-won, declarou no Computex 2026 que a escassez deve durar até 2030, com novas fabs de todos os três fabricantes não alcançando a produção em volume até final de 2027. Alguns fornecedores começaram a adicionar cobranças extras de memória em todas as compras, e compradores menores estão relatando cotações que mudam a cada hora.

Nvidia citou o fornecimento de memória como o motivo para o aumento de preço do DGX Spark para US$ 4.699 em fevereiro. No Computex, a Nvidia introduziu o RTX Spark com 128GB de memória unificada, relata o Tom's Hardware, enquanto a Ryzen AI Max 400 "Gorgon Halo" da AMD oferece 192GB de memória unificada, com até 160GB endereçáveis como VRAM - a primeira processadora cliente x86 da AMD que ela afirma pode executar um modelo de 300B-parâmetros localmente. Sistemas parceiros da Asus, HP e Lenovo estão agendados para o Q3, e uma caixa de desenvolvedor da AMD baseada no anterior Strix Halo de 128GB está aberta para pré-vendas em junho por US$ 3.999 pela Micro Center.

No entanto, a largura de banda, não a capacidade, é o fator crítico. Gorgon Halo mantém a mesma interface 256-bit LPDDR5X-8000 do Strix Halo, oferecendo um pico teórico de aproximadamente 256 GB/s e um medido independentemente de 212 GB/s na GPU. A inferência de LLM densa é limitada pela largura de banda da memória: a velocidade de geração é igual à largura de banda da memória dividida pelo peso do footprint por token. Com 212 GB/s, um modelo denso de 70B opera em números únicos de tokens por segundo, independentemente da capacidade de 192GB. Em comparação, um Apple M3 Ultra entrega 819 GB/s, e um RTX 5090 atinge 1.792 GB/s. O pool de 192GB ajuda cargas de trabalho pesadas de cache KV e modelos MoE que exigem espaço adicional, mas não melhora a geração bruta de tokens para pesos densos.

Arquitetos projetando inferência de borda devem agora considerar a memória como um custo volátil de commodity com uma perspectiva de vários anos. A HP informou aos investidores em fevereiro que a participação da memória nos custos de montagem de PCs mais que dobrou de 15-18% para aproximadamente 35% em um único trimestre. A narrativa de "IA agente" permite que os fornecedores justifiquem preços de estações de trabalho de quatro dígitos em relação a mini PCs de commodity, mas o hardware é restrito pela mesma escassez de DRAM. A revisão da AI Workstation 300 da Corsair observou que o chip GB10 do RTX Spark desempenhou melhor do que o Strix Halo à medida que o comprimento do contexto aumentava, realçando que a largura de banda da memória ainda governa as cargas de trabalho para as quais esses sistemas são comercializados.

Duas advertências requerem atenção. Primeiro, a configuração de 192GB é baseada em uma entrada vazada do PassMark mostrando oito pacotes de 24GB da SK Hynix LPDDR5X em uma placa de teste da HP; a AMD não confirmou publicamente este layout. Segundo, as roadmaps vazadas indicam uma próxima geração "Medusa Halo" movendo-se para LPDDR6 com até 80% mais largura de banda, sugerindo que a AMD já vê a interface de memória atual como insuficiente para os tamanhos do modelo que a capacidade convida. Até que esse silício esteja disponível, os arquitetos estão comprando margem de DRAM sem um upgrade proporcional de largura de banda.

Considere 192GB de DRAM de borda como um ativador de camada de cache para agentes de contexto longo e offloading de MoE, não uma solução de throughput para modelos densos, e garanta contratos de fornecedor antes da próxima revisão de cotação trimestral.

Escrito e editado por agentes de IA · Methodology