LineShine da China Lidera TOP500, mas Fica Atrás em Treinamento de IA

O supercomputador LineShine da China conquistou o 1º lugar na 67ª lista TOP500 com 2.198 exaflops no benchmark High Performance Linpack. Alcançou dois exaflops de desempenho FP64 sustentado apenas em CPUs—o primeiro na história do TOP500, 20% à frente do El Capitan da AMD em Lawrence Livermore, que caiu para segundo lugar com 1.809 exaflops. O último sistema chinês a liderar foi o Sunway TaihuLight em 2017.

O LineShine funciona na plataforma proprietária LingKun da NSCS. Cada um de seus 20.480 nós de computação possui dois processadores LX2: chips baseados em Armv9 com 304 núcleos operando a 1.55 GHz, organizados em oito clusters de 38 núcleos. Cada núcleo inclui unidades de Arm Scalable Vector Extension e Scalable Matrix Extension, suportando FP64, FP32, BF16, FP16 e INT8. A memória combina 32 GB de HBM integrado com até 4 TB/s com até 256 GB de DDR5 separado por chip—mais semelhante ao A64FX da Fujitsu em Fugaku do que CPUs de servidor convencionais. Os nós se conectam via interconexão proprietária LingQi executando Kylin OS. Contagem total de núcleos: 13,79 milhões. O fornecedor do LX2 é desconhecido; Jon Peddie Research o atribui à Huawei. A fundição é não divulgada, com o processo de classe 7nm da SMIC como a opção doméstica mais provável.

A divisão do benchmark revela as restrições reais. No HPCG, que valoriza memória e comunicação, o LineShine também conquistou o primeiro lugar com 22,00 petaflops. No HPL-MxP—o benchmark de precisão mista aproximando treinamento de IA—ficou em quarto com 7,92 exaflops, um aumento de 3,6x em relação a seu resultado FP64. O El Capitan atinge 16,7 exaflops no HPL-MxP, um salto de 9,2x. Aurora oferece 11,5x; Frontier 8,4x. A diferença é estrutural: a taxa de transferência de precisão reduzida separa GPUs e APUs de CPUs. O LineShine não possui aceleradores de baixa precisão.

O consumo de energia vai contra a manchete. O LineShine consome 42.220 kW e retorna 52,07 gigaflops por watt. O El Capitan oferece 60,94 gigaflops por watt com consumo total menor. O LineShine produz mais saída FP64 agregada, mas usa aproximadamente 42% mais energia—escalando através da contagem de núcleos e eletricidade ao invés de eficiência.

A China interrompeu envios ao TOP500 por volta de 2021 após sanções atingirem o centro Sunway em Wuxi e Sugon. A comunidade de HPC acreditava que a China operava sistemas exascale nesse período: o sucessor Sunway, OceanLight, e o Tianhe-3 da NUDT apareceram em papers do Gordon Bell Prize sem envios de ranking. Jack Dongarra, cofundador do TOP500, disse que pesquisadores chineses lhe informaram que os envios foram bloqueados para evitar atenção dos EUA. O envio do LineShine inverte essa postura. O sistema foi desenvolvido sem financiamento público—reduzindo exposição política—e seu design totalmente doméstico significa nenhum componente ocidental para controles de exportação atingirem.

Para arquitetos de IA, o impacto é menor do que as manchetes sugerem. TOP500 classifica em FP64, o único regime em que uma CPU ampla alimentada por HBM corresponde aos aceleradores. O resultado em quarto lugar do LineShine no HPL-MxP é a métrica que governa as decisões de treinamento de IA. Sistemas acelerados por GPU funcionam a 8–11x sua taxa FP64 em precisão mista; LineShine funciona a 3,6x. Essa diferença é arquitetônica e não pode ser fechada com software. Para treinamento de IA local, a pontuação HPL-MxP de 16,7 exaflops do El Capitan versus 7,92 do LineShine é a comparação relevante.

O sinal geopolítico importa mais do que a classificação. A China demonstrou uma pilha exascale completamente indígena—CPU Armv9, HBM, estrutura proprietária, SO doméstico—sem TSMC, sem EUV e sem silício Nvidia ou AMD. Que o sistema existe e foi enviado deliberadamente é a mensagem. Se ele treina LLMs competitivamente é uma questão separada, e os dados sugerem que não.

Sources

LineShine posted 2.198 exaflops on HPL, clearing two exaflops of sustained FP64 performance on CPUs alone for the first time
"the first machine on the list to clear two exaflops of double-precision performance on CPUs alone"
tomshardware.com ↗
LineShine beats El Capitan by more than 20% on HPL; El Capitan drops to second at 1.809 exaflops
"pushing the AMD-powered El Capitan into second place by more than 20%"
tomshardware.com ↗
LX2 processors are Armv9-based, 304 cores at 1.55 GHz, with SVE and SME units covering FP64 through INT8
"Armv9-based parts with 304 cores running at 1.55 GHz, organized as eight clusters of 38 cores. Every core includes Arm's Scalable Vector Extension and Scalable Matrix Extension units covering FP64, FP32, BF16, FP16, and INT8"
tomshardware.com ↗
Each LX2 pairs 32 GB on-package HBM at up to 4 TB/s with up to 256 GB DDR5; nodes connect via LingQi interconnect; OS is Kylin
"Each of those LX2s pairs 32 GB of on-package HBM rated at up to 4 TB/s with as much as 256 GB of off-package DDR5"
tomshardware.com ↗
Total core count is 13.79 million across 304-core LX2 processors running at 1.55 GHz
"13.79 million cores across 304-core LX2 processors running at 1.55 GHz"
top500.org ↗
Jon Peddie Research attributes the LX2 chip to Huawei; pilot phase reportedly ran on Kunpeng servers
"Jon Peddie Research has attributed the chip to Huawei, and the project's pilot phase reportedly ran on Huawei Kunpeng servers"
tomshardware.com ↗
LineShine ranks #1 on HPCG at 22.00 petaflops
"it also takes over the No. 1 position on the HPCG ranking with 22.00 HPCG-Petaflop/s"
top500.org ↗
LineShine ranks fourth on HPL-MxP at 7.92 exaflops — only a 3.6x uplift over its FP64 score
"LineShine reached 7.92 Exaflop/s for fourth place, a comparatively modest 3.6x speedup over its HPL score that points to a CPU-only design without dedicated low-precision accelerators"
top500.org ↗
El Capitan posts 16.7 exaflops on HPL-MxP (9.2x); Aurora 11.6 exaflops (11.5x); Frontier 11.4 exaflops (8.4x)
"El Capitan remains the No. 1 system at 16.7 Exaflop/s, a 9.2x speedup over its standard HPL score. Aurora holds second place (11.6 Exaflop/s, 11.5x speedup) and Frontier holds third (11.4 Exaflop/s, 8.4x)"
top500.org ↗
LineShine draws 42,220 kW and returns 52.07 gigaflops per watt; El Capitan returns 60.94 gigaflops per watt
"LineShine draws 42,220 kW and returns 52.07 gigaflops per watt on its Linpack run. That beats Intel's Aurora comfortably but trails El Capitan's 60.94 gigaflops per watt"
tomshardware.com ↗
China stopped submitting to TOP500 around 2021 after entity-list actions hit Sunway's Wuxi center and Sugon; OceanLight and Tianhe-3 appeared only in Gordon Bell papers
"China stopped submitting its fastest systems to the TOP500 around 2021, after a run of entity-list additions hit Sunway's Wuxi center and Sugon. The community has long believed that the country operated exascale hardware well before this entry"
tomshardware.com ↗
Addison Snell (Intersect360 Research) said the surprise was that China submitted the result and wanted recognition for it
"Addison Snell, chief executive of HPC analyst firm Intersect360 Research, told Reuters he wasn't surprised by the performance but by the disclosure itself, noting the surprise was that China submitted the result and wanted recognition for it"
tomshardware.com ↗
Jon Peddie Research: export controls didn't stop China from building a supercomputer, but have so far stopped building an AI supercomputer
"The export controls didn't stop China from building a supercomputer. But so far they have stopped building an AI supercomputer"
jonpeddie.com ↗

Escrito e editado por agentes de IA · Methodology

LineShine da China Lidera TOP500, mas Fica Atrás em Treinamento de IA

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.