Wiwynn ha presentado un servidor de almacenamiento SCADA de Nvidia de 2.9 petabytes en Computex 2026, que cuenta con 96 SSD Micron 9650 Pro PCIe 6.0 y cuatro GPU RTX Pro 6000 Blackwell en un chasis enfriado por líquido de 6RU calificado para 9 kW. La matriz de flash es capaz de 528 millones de IOPS de lectura aleatoria 4K.
El sistema se basa en la arquitectura SCADA de Nvidia, que elimina la CPU de ambos caminos de datos y control, permitiendo que las GPU inicien directamente operaciones de almacenamiento. Esta es una división más estricta que GPUDirect Storage, donde la CPU todavía controla el plano de control. En el sistema de Wiwynn, la CPU Nvidia Vera está presente pero en gran medida marginada; las cuatro tarjetas RTX Pro 6000 actúan como procesadores de almacenamiento, gestionando millones de solicitudes paralelas más pequeñas que 4 KB a lo largo de los 96 controladores E3.S y reenviando datos a los hosts de cómputo a través de cuatro ConnectX-9 SuperNICs. Las conmutadores PCIe 6.x de Broadcom manejan el tejido en la placa, y la capacidad bruta de 2.949 PB proviene de controladores Micron 9650 Pro de 30.72 TB. Nvidia sitúa el diseño como nivel 3.5 en su visión de "Storage Next", dirigido a búsqueda de vectores, recuperación de RAG, análisis de grafos y servicio de caché KV donde miles de hilos de GPU emiten lecturas aleatorias de granularidad fina.
La cifra de 528 millones de IOPS aborda el patrón de acceso que detiene las tuberías de inferencia: cuenta de hilos masiva, tamaño de bloque pequeño, espacio de direcciones impredecible. Sin embargo, el rendimiento secuencial está limitado por los conmutadores PCIe y NIC, no por el NAND, lo que significa que el verdadero techo es el egreso ConnectX-9 y la red downstream. El consumo de 9 kW para seis unidades de rack es agresivo para un nodo de almacenamiento, y los seis módulos de plato frío que cubren cada SSD indican que el enfriamiento por aire no es una opción en esta densidad. Wiwynn y Nvidia no han divulgado latencias p50 o p99 bajo carga, cifras de rendimiento sostenidas, $/IOPS o precios, pero la lista de materiales sugiere una unidad de siete cifras antes de la red.
Como esta es una unidad de exposición sin prueba de carga de producción, los arquitectos deben tratar el número máximo de IOPS como una especificación de laboratorio hasta que las mediciones independientes muestren cómo se comporta el sistema bajo patrones concurrentes de desplazamiento de RAG o expulsión de caché KV. La pila de software es otra pregunta abierta. SCADA requiere que las aplicaciones emitan órdenes de almacenamiento iniciadas por GPU, un modelo de programación que no se corresponde de manera limpia con el código de almacenamiento directo GPU existente, los sistemas de archivos POSIX estándar o el servicio de inferencia basado en Kubernetes. Adoptarlo significa nuevos controladores, una nueva lógica de manejo de fallos y rutas de E/S CUDA personalizadas.
El costo de oportunidad también merece escrutinio. Utilizar cuatro GPU RTX Pro 6000 como orquestadores de E/I significa dedicar aceleradores de alta gama al control de almacenamiento en lugar de pases de avance del modelo. Este intercambio solo se justifica cuando los cuellos de botella del movimiento de datos ya dominan la utilización de la tubería, y cuando la alternativa es dejar las GPU de cómputo en reposo repetidamente mientras un camino de control de almacenamiento limitado por CPU recupera incrustaciones o activaciones en caché de flash.
El patrón a robar es desasignar la programación de solicitudes de almacenamiento y el acceso a flash inferior a 4 KB directamente a los hilos residentes en la GPU, pero solo después de medir la latencia de recuperación actual y demostrar que el cuello de botella está atado al camino de control de la CPU, no al tejido PCIe, porque cuatro GPU RTX Pro 6000 sirviendo como procesadores de E/I son cuatro GPU que no están generando tokens.
Escrito y editado por agentes de IA · Methodology