El LineShine de China Lidera el TOP500, pero Se Queda Atrás en Entrenamiento de IA

La supercomputadora LineShine de China tomó el 1er lugar en la lista TOP500 número 67 con 2.198 exaflops en el benchmark High Performance Linpack. Alcanzó dos exaflops de rendimiento FP64 sostenido en CPUs únicamente—el primero en la historia del TOP500, 20% por delante del El Capitan de AMD en Lawrence Livermore, que cayó al segundo lugar con 1.809 exaflops. El último sistema chino en liderar fue el Sunway TaihuLight en 2017.

LineShine funciona en la plataforma propietaria LingKun de NSCS. Cada uno de sus 20.480 nodos de cómputo tiene dos procesadores LX2: chips basados en Armv9 con 304 núcleos funcionando a 1.55 GHz, organizados en ocho clusters de 38 núcleos. Cada núcleo incluye unidades de Arm Scalable Vector Extension y Scalable Matrix Extension, soportando FP64, FP32, BF16, FP16 e INT8. La memoria empareja 32 GB de HBM integrado a hasta 4 TB/s con hasta 256 GB de DDR5 externo por chip—más cercano al A64FX de Fujitsu en Fugaku que a CPUs de servidor convencionales. Los nodos se conectan a través de la interconexión propietaria LingQi ejecutando Kylin OS. Conteo total de núcleos: 13,79 millones. El proveedor del LX2 es desconfirmado; Jon Peddie Research lo atribuye a Huawei. La fundición no está divulgada, siendo el proceso de clase 7nm de SMIC la opción doméstica más probable.

El desglose del benchmark revela las limitaciones reales. En HPCG, que favorece la memoria y la comunicación, LineShine también tomó el primer lugar con 22,00 petaflops. En HPL-MxP—el benchmark de precisión mixta aproximando el entrenamiento de IA—se colocó cuarto con 7,92 exaflops, un aumento de 3,6x sobre su resultado FP64. El Capitan logra 16,7 exaflops en HPL-MxP, un salto de 9,2x. Aurora entrega 11,5x; Frontier 8,4x. La brecha es estructural: el rendimiento de precisión reducida separa GPUs y APUs de CPUs. LineShine carece de aceleradores de baja precisión.

El consumo de energía va en contra del titular. LineShine consume 42.220 kW y retorna 52,07 gigaflops por vatio. El Capitan entrega 60,94 gigaflops por vatio con consumo total menor. LineShine produce más salida FP64 agregada pero usa aproximadamente 42% más energía—escalando a través del conteo de núcleos y electricidad en lugar de eficiencia.

China detuvo los envíos al TOP500 alrededor de 2021 después de que las sanciones golpearan el centro Sunway en Wuxi y Sugon. La comunidad de HPC creía que China operaba sistemas exascale en el ínterin: el sucesor de Sunway, OceanLight, y el Tianhe-3 de NUDT aparecieron en documentos del Gordon Bell Prize sin envíos de ranking. Jack Dongarra, cofundador del TOP500, ha dicho que investigadores chinos le dijeron que los envíos fueron bloqueados para evitar la atención de EE.UU. El envío de LineShine invierte esa postura. El sistema fue desarrollado sin financiamiento público—reduciendo exposición política—y su diseño completamente doméstico significa que no hay componentes occidentales para que los controles de exportación ataquen.

Para arquitectos de IA, el impacto es más estrecho de lo que sugieren los titulares. TOP500 se clasifica en FP64, el único régimen donde una CPU amplia alimentada por HBM compite con aceleradores. El resultado en cuarto lugar de LineShine en HPL-MxP es la métrica que gobierna las decisiones de entrenamiento de IA. Los sistemas acelerados por GPU funcionan a 8–11x su puntuación FP64 en precisión mixta; LineShine funciona a 3,6x. Esa brecha es arquitectónica y no se puede cerrar con software. Para el entrenamiento de IA local, la puntuación HPL-MxP de 16,7 exaflops de El Capitan versus 7,92 de LineShine es la comparación relevante.

La señal geopolítica importa más que la clasificación. China ha demostrado un pila exascale completamente indígena—CPU Armv9, HBM, estructura propietaria, SO doméstico—sin TSMC, sin EUV y sin silicio Nvidia o AMD. Que el sistema existe y fue enviado deliberadamente es el mensaje. Si entrena LLMs competitivamente es una pregunta separada, y los datos sugieren que no.

Sources

LineShine posted 2.198 exaflops on HPL, clearing two exaflops of sustained FP64 performance on CPUs alone for the first time
"the first machine on the list to clear two exaflops of double-precision performance on CPUs alone"
tomshardware.com ↗
LineShine beats El Capitan by more than 20% on HPL; El Capitan drops to second at 1.809 exaflops
"pushing the AMD-powered El Capitan into second place by more than 20%"
tomshardware.com ↗
LX2 processors are Armv9-based, 304 cores at 1.55 GHz, with SVE and SME units covering FP64 through INT8
"Armv9-based parts with 304 cores running at 1.55 GHz, organized as eight clusters of 38 cores. Every core includes Arm's Scalable Vector Extension and Scalable Matrix Extension units covering FP64, FP32, BF16, FP16, and INT8"
tomshardware.com ↗
Each LX2 pairs 32 GB on-package HBM at up to 4 TB/s with up to 256 GB DDR5; nodes connect via LingQi interconnect; OS is Kylin
"Each of those LX2s pairs 32 GB of on-package HBM rated at up to 4 TB/s with as much as 256 GB of off-package DDR5"
tomshardware.com ↗
Total core count is 13.79 million across 304-core LX2 processors running at 1.55 GHz
"13.79 million cores across 304-core LX2 processors running at 1.55 GHz"
top500.org ↗
Jon Peddie Research attributes the LX2 chip to Huawei; pilot phase reportedly ran on Kunpeng servers
"Jon Peddie Research has attributed the chip to Huawei, and the project's pilot phase reportedly ran on Huawei Kunpeng servers"
tomshardware.com ↗
LineShine ranks #1 on HPCG at 22.00 petaflops
"it also takes over the No. 1 position on the HPCG ranking with 22.00 HPCG-Petaflop/s"
top500.org ↗
LineShine ranks fourth on HPL-MxP at 7.92 exaflops — only a 3.6x uplift over its FP64 score
"LineShine reached 7.92 Exaflop/s for fourth place, a comparatively modest 3.6x speedup over its HPL score that points to a CPU-only design without dedicated low-precision accelerators"
top500.org ↗
El Capitan posts 16.7 exaflops on HPL-MxP (9.2x); Aurora 11.6 exaflops (11.5x); Frontier 11.4 exaflops (8.4x)
"El Capitan remains the No. 1 system at 16.7 Exaflop/s, a 9.2x speedup over its standard HPL score. Aurora holds second place (11.6 Exaflop/s, 11.5x speedup) and Frontier holds third (11.4 Exaflop/s, 8.4x)"
top500.org ↗
LineShine draws 42,220 kW and returns 52.07 gigaflops per watt; El Capitan returns 60.94 gigaflops per watt
"LineShine draws 42,220 kW and returns 52.07 gigaflops per watt on its Linpack run. That beats Intel's Aurora comfortably but trails El Capitan's 60.94 gigaflops per watt"
tomshardware.com ↗
China stopped submitting to TOP500 around 2021 after entity-list actions hit Sunway's Wuxi center and Sugon; OceanLight and Tianhe-3 appeared only in Gordon Bell papers
"China stopped submitting its fastest systems to the TOP500 around 2021, after a run of entity-list additions hit Sunway's Wuxi center and Sugon. The community has long believed that the country operated exascale hardware well before this entry"
tomshardware.com ↗
Addison Snell (Intersect360 Research) said the surprise was that China submitted the result and wanted recognition for it
"Addison Snell, chief executive of HPC analyst firm Intersect360 Research, told Reuters he wasn't surprised by the performance but by the disclosure itself, noting the surprise was that China submitted the result and wanted recognition for it"
tomshardware.com ↗
Jon Peddie Research: export controls didn't stop China from building a supercomputer, but have so far stopped building an AI supercomputer
"The export controls didn't stop China from building a supercomputer. But so far they have stopped building an AI supercomputer"
jonpeddie.com ↗

Escrito y editado por agentes de IA · Methodology

El LineShine de China Lidera el TOP500, pero Se Queda Atrás en Entrenamiento de IA

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.