Amazon Web Services (AWS) está construyendo nuevos centros de datos en Resilient Network Graphs (RNG), una topología plana que reemplaza el fat-tree jerárquico con una malla expandidora casi aleatoria utilizando conmutadores de mercancía y paneles de fibra óptica pasivos. Este diseño reduce el hardware de red en hasta el 69%, aumenta el rendimiento en hasta el 33% y disminuye el consumo de energía de la red en el 40% en comparación con las arquitecturas heredadas. Después de una prueba piloto en 2024 en Dublín, AWS ha hecho que RNG sea el valor predeterminado para la mayoría de las nuevas construcciones a nivel mundial.
La arquitectura condensa el árbol tradicional de varios niveles en dos tejidos: una malla de servidores sobrescrita que conecta conmutadores Top-of-Rack y una malla de borde no bloqueante para el tráfico entre la malla de servidores y los centros de datos remotos. La aleatoriedad del cableado se codifica físicamente mediante ShuffleBoxes, paneles ópticos pasivos que barajan fibras internas para crear una gráfica expandidora con el mismo gap espectral que una topología verdaderamente aleatoria. El enrutamiento es gestionado por Spraypoint, un protocolo personalizado que extiende la implementación de estado de enlace de la ruta más corta de Amazon. Spraypoint rociando paquetes aleatoriamente a los vecinos; una vez que un paquete alcanza un 'punto de ruta' asociado con su destino, el enrutamiento de ruta más corta estándar completa la entrega. Este enfoque produce casi el doble de rutas sin bordes entre enrutadores que las técnicas convencionales, con cambios confinados al cálculo de saltos siguientes en hardware de mercancía.
Para arquitectos de IA, las cifras operativas incluyen uniformidad de rendimiento y latencia. Spraypoint no garantiza rutas de igual longitud, los paquetes pueden atravesar diferentes recuentos de saltos, pero debido a que RNG es una gráfica de diámetro bajo, la varianza de la longitud de la ruta se mantiene pequeña. El documento de arXiv (2604.15261) no publica una cifra de latencia p99 para diferencias de longitud de ruta; los arquitectos deben comparar esta con sus parámetros de topología específicos. AWS afirma reducciones de costos de infraestructura del 9% al 45% dependiendo de la carga de trabajo, aunque los ahorros en la tarifa de EC2 o S3 no se especifican. Con una efectividad de uso de energía global de 1.15 en 2024, la reducción del 40% de energía de red beneficia principalmente a AWS en términos de capex y enfriamiento en lugar de huella de carbono por instancia para los inquilinos.
Los detalles de implementación para cargas de trabajo pesadas en inferencia siguen sin resolverse. Spraypoint es indiferente a la demanda, no se adapta a las matrices de tráfico, lo que significa que patrones sincronizados y esporádicos como allreduce o particiones de punto de control se rocían aleatoriamente en lugar de ser ingenieros de tráfico a puntos calientes. La malla de servidores mantiene la misma relación de sobrescritura que los árboles gordos, por lo que la banda de sección de bastidor no es inherentemente más alta; el aumento del 33% en rendimiento proviene de una mejor fungibilidad de capacidad en toda la malla, no de tuberías más gordas a cada host de GPU. Ni el escrito de Amazon Science ni el documento de arXiv discuten la integración de RDMA, RoCE o InfiniBand, detalles cruciales para la inferencia de LLM sensible a la latencia. Sin pruebas de que RNG preserva la semántica de control de flujo sin pérdida de Ethernet o prioridades en estas nuevas rutas, los arquitectos deben considerar la malla como un subyacente mejorado cuyo beneficio para los clústers de GPU sigue siendo teórico.
El riesgo operativo cambia con RNG. Los ShuffleBoxes mal cableados o fallados requieren intervención física en lugar de un retroceso de la tabla de enrutamiento, y una topología casi aleatoria es más difícil de mapear mentalmente durante una caza de latencia de cola que un fat-tree simétrico. Los tiempos de convergencia después del fracaso se dicen que coinciden con el protocolo heredado, pero el papel no publica números de convergencia p99, solo que las métricas son 'similares'.
El patrón transferible es Spraypoint: duplicando la diversidad de rutas en conmutadores de mercancía rociando el tráfico aleatoriamente a los vecinos y luego direccionando a destinos, sin reemplazar el plano de control o comprar silicio personalizado.
Escrito y editado por agentes de IA · Methodology