Blueprint de Armazenamento de IA da Meta: Arquitetura BLOB Redesenhada para Cortar GPU Stalls, Reduzir Latência de I/O
Meta divulgou como redesenhou sua arquitetura de armazenamento BLOB (Big Large Object) para abordar um gargalo crítico no treinamento de IA: latência de I/O de armazenamento causando stalls de GPU. A empresa opera centenas de clusters de armazenamento em escala de exabytes servindo Facebook, Instagram, Meta AI e outros produtos. Enquanto o desempenho de compute de IA triplicou aproximadamente a cada dois anos, o crescimento de desempenho de armazenamento e interconexão foi mais modesto, deixando armazenamento como um contribuidor primário para tempo ocioso de GPU e despesa de compute desperdiçada.
O design BLOB-storage legado—em camadas com lojas de metadados stateful em namelayer, volumeslayer e containerlayer—introduziu latência cross-region que se acumulou para centenas de milissegundos para uma única chamada de API getObject. Cargas de trabalho de IA modernas demandam latências previsíveis e limitadas (pMax) em granularidade de milissegundo. Mesmo uma única busca de metadados lenta poderia prender uma barreira de sincronização do cluster GPU inteiro durante treinamento, cascateando atrasos em centenas de milhares de GPUs.
A pilha modernizada da Meta simplifica o fluxo de requisição, elimina saltos de metadados desnecessários e co-localiza metadados com colocação de dados regional. A nova arquitetura é construída para maximizar utilização de GPU e velocidade de pesquisa permitindo que times rapidamente ingiram e movam conjuntos de dados massivos em clusters GPU geo-distribuídos sem gargalos de banda regional.
Para arquitetos executando treinamento de IA em larga escala, isso sinaliza a mudança de replicação global-padrão para otimização de armazenamento regional e consciente de tier. O gargalo não é mais capacidade de compute mas eficiência de pipeline de dados; organizações gerenciando conjuntos de dados de treinamento multi-exabyte devem esperar pivots arquiteturais similares de seus fornecedores de infraestrutura.