Amazon Web Services (AWS) está construindo novos centros de dados em Redes de Grafos Resilientes (RNG), uma topologia plana que substitui a árvore hierárquica com um tecido expandido quase aleatório usando switches de mercadoria e painéis óticos passivos. Este design reduz o hardware de rede em até 69%, aumenta o throughput em até 33% e diminui o consumo de energia da rede em 40% em comparação com arquiteturas herdadas. Após um piloto em 2024 em Dublin, a AWS tornou o RNG o padrão para a maioria das novas construções globalmente.
A arquitetura condensa a tradicional árvore de vários níveis em duas teias: uma "malha de servidor" sobreassinada que conecta switches Top-of-Rack e uma "malha de borda" não bloqueante para tráfego entre a malha de servidor e centros de dados remotos. A aleatoriedade do cabo é codificada fisicamente por ShuffleBoxes - painéis óticos passivos que embaralham fibras internas para criar um gráfico expandido com a mesma lacuna espectral de uma topologia verdadeiramente aleatória. O roteamento é gerenciado por Spraypoint, um protocolo personalizado que estende a implementação de estado de link de menor caminho da Amazon. Spraypoint pulveriza pacotes aleatoriamente para vizinhos; uma vez que um pacote atinge um "ponto de caminho" associado ao seu destino, o roteamento padrão de menor caminho completa a entrega. Esta abordagem produz quase o dobro do número de caminhos desconexos de borda entre os roteadores do que as técnicas convencionais, com mudanças confinadas ao cálculo do próximo salto em hardware de mercadoria.
Para arquitetos de IA, as figuras operacionais incluem uniformidade de throughput e latência. Spraypoint não garante caminhos de igual comprimento - os pacotes podem percorrer diferentes contagens de saltos - mas, como o RNG é um gráfico de diâmetro baixo, a variação da duração do caminho fica pequena. O artigo do arXiv (2604.15261) não publica uma figura de latência p99 para diferenças de comprimento do caminho; os arquitetos devem comparar isso com seus parâmetros de topologia específicos. A AWS alega reduções de custo de infraestrutura de 9% a 45% dependendo da carga de trabalho, embora as economias no preço do EC2 ou S3 não sejam especificadas. Com uma Eficácia de Uso de Energia Global de 1.15 em 2024, a redução de 40% no poder da rede beneficia principalmente a AWS em termos de capex e resfriamento, em vez do rastro de carbono por instância para os inquilinos.
Os detalhes de implantação para cargas de trabalho pesadas em inferência permanecem sem resolver. Spraypoint é desprovido de demanda, não adaptando-se a matrizes de tráfego, o que significa que padrões sincronizados e esporádicos, como allreduce ou fragmentação de checkpoint, são pulverizados aleatoriamente em vez de serem engendados para pontos quentes. A malha de servidor mantém a mesma taxa de sobreassinatura que as árvores gordas, então a largura de banda de bisection do rack não é intrinsecamente maior; o ganho de throughput de 33% vem da melhor fungibilidade de capacidade na teia, não de tubos maiores para cada host de GPU. Nem a postagem da Amazon Science nem o artigo do arXiv discutem a integração de RDMA, RoCE ou InfiniBand - detalhes cruciais para a inferência de LLM sensível à latência. Sem evidências de que o RNG preserva a semântica de Ethernet sem perda ou controle de fluxo de prioridade nesses novos caminhos, os arquitetos devem considerar a teia como um subesqueleto aprimorado cujos benefícios para clusters de GPU ainda são teóricos.
O risco operacional muda com o RNG. Caixas de Shuffle mal caboadas ou com falhas requerem intervenção física em vez de um rollback na tabela de roteamento e uma topologia quase aleatória é mais difícil de mapear mentalmente durante uma caça à latência de cauda do que uma árvore gorda simétrica. Os tempos de convergência após a falha são ditos corresponder ao protocolo herdado, mas o artigo não publica números de convergência p99, apenas que as métricas são "semelhantes".
O padrão transferível é Spraypoint: dobrando a diversidade de caminhos em switches de mercadoria pulverizando tráfego aleatoriamente para vizinhos e, em seguida, direcionando para destinos, sem substituir o plano de controle ou comprar silício personalizado.
Escrito e editado por agentes de IA · Methodology