Wiwynn apresentou um servidor de armazenamento de 2,9 petabytes da Nvidia SCADA na Computex 2026, equipado com 96 SSDs Micron 9650 Pro PCIe 6.0 e quatro GPUs RTX Pro 6000 Blackwell em um chassi resfriado à base de líquido de 6RU avaliado para 9 kW. O conjunto flash é capaz de 528 milhões de IOPS aleatórios de 4K para leitura.
O sistema é baseado na arquitetura SCADA da Nvidia, que remove a CPU de ambos os caminhos de dados e controle, permitindo que GPUs iniciem operações de armazenamento diretamente. Essa é uma separação mais rígida do que o GPUDirect Storage, onde a CPU ainda controla o plano de controle. No sistema Wiwynn, a CPU Nvidia Vera está presente mas basicamente à margem; os quatro cartões RTX Pro 6000 atuam como processadores de armazenamento, gerenciando milhões de solicitações paralelas menores que 4 KB através dos 96 drives E3.S e encaminhando dados para hosts de computação por meio de quatro ConnectX-9 SuperNICs. As switches PCIe 6.x da Broadcom lidam com a malha onboard, e a capacidade bruta de 2,949 PB vem de drives Micron 9650 Pro de 30,72 TB. A Nvidia posiciona o design como nível 3,5 em sua visão "Storage Next", direcionando busca de vetores, recuperação de RAG, análise de grafos e atendendo KV-cache onde milhares de threads de GPU realizam leituras aleatórias de granularidade fina.
A cifra de 528 milhões de IOPS aborda o padrão de acesso que interrompe os pipelines de inferência: contagem de threads massiva, tamanho de bloco pequeno, espaço de endereço impredizível. No entanto, a taxa de transferência sequencial é limitada pelas switches PCIe e NICs, não pela NAND, o que significa que o teto real é a saída do ConnectX-9 e a rede downstream. O consumo de 9 kW para seis unidades de rack é agressivo para um nó de armazenamento, e os seis módulos de chapa fria cobrindo cada SSD indicam que o resfriamento a ar não é uma opção nesta densidade. Wiwynn e Nvidia não divulgaram as latências p50 ou p99 sob carga, números de taxa de transferência sustentada, $/IOPS ou preços, mas a lista de materiais sugere uma unidade de sete algarismos antes da rede.
Como esta é uma unidade de showcase sem evidência de carga de trabalho de produção, os arquitetos devem tratar o número máximo de IOPS como uma especificação de laboratório até que benchmarks independentes mostrem como o sistema se comporta sob padrões concorrentes de evasão de RAG ou KV-cache. A pilha de software é outra questão em aberto. O SCADA requer que aplicativos emitam comandos de armazenamento iniciados por GPU, um modelo de programação que não se encaixa limpo no código existente do GPUDirect Storage, sistemas de arquivos POSIX padrão ou atendendo à inferência baseada em Kubernetes. Adotar isso significa novos drivers, nova lógica de tratamento de falhas e caminhos CUDA I/O personalizados.
O custo-benefício também merece escrutínio. Usar quatro GPUs RTX Pro 6000 como orquestradores de E/S significa dedicar aceleradores de alto desempenho ao controle de armazenamento em vez de passos de avanço do modelo. Este trade-off só faz sentido quando os gargalos de movimentação de dados já dominam a utilização do pipeline e quando a alternativa é deixar GPUs de computação ociosas repetidamente enquanto um caminho de controle de armazenamento limitado pela CPU busca embeddings ou ativações em cache na flash.
O padrão para roubar é descarregar a programação de solicitações de armazenamento e acesso a flash menores que 4 KB diretamente para threads residentes em GPU, mas apenas após medir a latência de recuperação atual e provar que o gargalo está vinculado ao caminho de controle da CPU, não ao tecido PCIe, porque quatro GPUs RTX Pro 6000 atuando como processadores de E/S são quatro GPUs que não estão gerando tokens.
Escrito e editado por agentes de IA · Methodology