Intel Clearwater Forest sacrifica Ancho de Vector por rendimiento de inferencia

El procesador insignia de Intel Clearwater Forest Xeon 6+, diseñado para aliviar pipelines de inferencia limitadas por GPU, cuenta con 288 núcleos de Darkmont E-cores de hilo único y 576 MB de caché L3 dentro de un envoltura de TDP de 450 W. El procesador omite el multihilo simultáneo y AVX-512 para maximizar la densidad de núcleos. Basado en la tecnología de proceso 18A de Intel, el Xeon 6990E+ de nivel superior incluye doce mosaicos de cálculo 18A, tres mosaicos base de Intel 3 y dos mosaicos de E/S de Intel 7 de Granite Rapids, interconectados por enlaces EMIB 2.5D. El socket LGA 7529 es compatible con sistemas Xeon 6900P existentes, permitiendo una actualización basada en actualización de BIOS sin reconfiguración del rack. La capacidad de memoria alcanza 1.5 TB por socket a través de doce canales DDR5-8000, y el procesador proporciona 96 canales PCIe 5.0 y 64 canales CXL 2.0 para conectividad de aceleradores. Intel complementa el silicio con hardware dedicado para criptografía (QAT), equilibrio de carga (DLB) y movimiento de datos (DSA, IAA), enfocándose en las capas escalares que típicamente ocupan recursos de GPU.

Intel posiciona el Xeon 6990E+ para rendimiento por watt en orquestación de IA en lugar de tareas de entrenamiento pesadas en vector. La empresa afirma un aumento de rendimiento del 2.26 veces y un rendimiento mejor 1.55 veces por watt sobre el Sierra Forest 6780E de 144 núcleos, y una ventaja del 30% por hilo sobre el EPYC 9965 de AMD en sus benchmarks. Sin embargo, el análisis de ServeTheHome indica una mejora generacional del 13% por núcleo, sugiriendo que la mayoría del aumento de rendimiento se debe a una mayor densidad de núcleos en lugar de núcleos más rápidos. El TDP varía de 330 W a 450 W para las SKU de 288 núcleos, con una frecuencia de turbo de todo el núcleo de 2.8 GHz. Notablemente, los núcleos están limitados a AVX2, sin soporte para AVX-512 o AVX10, lo que significa que los kernels de inferencia compilados para vectores de 512 bits recurrirá a tuberías más estrechas.

La oferta y la topología presentan desafíos significativos. El vicepresidente de Ingeniería de Silicio de Centro de Datos de Intel, Tim Wilson, declaró que la asignación de wafer 18A se maneja diariamente, aconsejando a los equipos de adquisición que vean la disponibilidad de volumen como una reserva de capacidad en lugar de un artículo de catálogo garantizado. Kira Boyko, directora de la línea de productos Xeon E-Core de Intel, señaló que los clientes con inversiones significativas en GPU están experimentando GPUs inactivos debido a una infraestructura de CPU insuficiente para alimentarlos rápidamente con datos. La memoria de 5.33 GB por núcleo en el insignia de Clearwater Forest también puede limitar el almacenamiento en caché de inferencia de modelos grandes o la densidad de contenedores. Dado que los núcleos Darkmont son estrictamente de hilo único, los programadores y modelos de licencia que asumen dos procesadores lógicos por núcleo físico deben ser reajustados, ya que el SMT no volverá hasta Coral Rapids, la tercera generación de Xeon 6+, después de Diamond Rapids (próxima generación, estado de SMT no divulgado). La limitación de AVX2 significa que los kernels de inferencia nativos de CPU compilados para AVX-512 o bien recaerán en tuberías más estrechas o necesitarán ser desplazados a aceleradores.

Clearwater Forest introduce Application Energy Telemetry (AET), un bloque de hardware que informa el consumo de energía por hilo, por contenedor y por VM. Boyko indicó que esta función se incluirá en futuros modelos de Xeon, proporcionando plataformas de inferencia multi-inquilino con una métrica de potencia basada en hardware para cargos en lugar de confiar en la asignación TDP tosca.

Los arquitectos deben considerar la compensación explícita de densidad por ancho de vector: traten la CPU como un orquestrador de rendimiento para inferencia adjunto a GPU en lugar de un motor de cómputo vectorial, y dimensionen los grupos de hilos asumiendo un trabajador por núcleo físico mientras gestionan la asignación de 18A como una reserva de capacidad escasa.

Sources

18A wafer allocation is managed 'daily, in some cases' due to extreme scarcity
"daily, in some cases"
tomshardware.com ↗
Customers with GPU investments are experiencing idle GPUs due to insufficient CPU infrastructure
"Many started by investing in GPUs and are now realizing they don't have the CPU counterparts to actually keep those GPUs going."
tomshardware.com ↗
E-core is single-threaded and will not be replaced by Diamond Rapids
"E-core is single-threaded. It has the core density for the workloads it's servicing, and we are not expecting it to be replaced by Diamond Rapids."
tomshardware.com ↗
SMT/hyper-threading will not return until Coral Rapids, the third Xeon 6+ generation after Clearwater Forest
"Intel CEO Lip-Bu Tan has referenced that hyper-threading will return with Coral Rapids."
tomshardware.com ↗
Application Energy Telemetry (AET) will roll out across all future Xeon generations
"That is expected to roll out across all of our Xeons going forward."
tomshardware.com ↗
Clearwater Forest tops out at AVX2 — no AVX-512 or AVX10 support
"The CPUs don't support any form of AVX10, or even AVX-512. They top out at AVX2, an Intel spokesperson confirmed to Tom's Hardware."
tomshardware.com ↗
Xeon 6990E+ flagship: 288 cores, 576 MB L3, 450 W TDP, 2.2/3.2 GHz base/turbo, 2.8 GHz all-core turbo
"The flagship Xeon 6990E+ is designed for compute density, packing in 288 Darkmont cores with 576 MB of L3 cache"
tomshardware.com ↗
Intel claims 30% higher performance per thread vs AMD EPYC 9965 and 2.26x generational uplift / 1.55x perf-per-watt vs Xeon 6780E (144 cores)
"Intel claims the 6990E+ delivers an average 30% performance per thread improvement compared to AMD's 192-core Epyc 9965"
tomshardware.com ↗
12-channel DDR5-8000 memory, 96 PCIe 5.0 lanes, 64 CXL 2.0 lanes per socket; LGA 7529 socket compatible with existing Xeon 6900P systems
"Xeon 6+ chips work with existing Xeon 6 platforms on the LGA 7529 socket"
tomshardware.com ↗
Per-core generational gain is ~13% (2.26x total uplift divided by 2x core count increase from 144 to 288 cores)
"the per-core generational gain is closer to 13 percent if we simply divide the total performance uplift by the core-count increase"
servethehome.com ↗
Upgrade from Xeon 6900P to Clearwater Forest is typically just a BIOS update — drop-in compatible
"Partners tell us that supporting the new chips is usually just a BIOS update in existing Xeon 6900P systems."
servethehome.com ↗
Maximum memory per socket: 1.5 TB (12×128 GB ECC RDIMMs), equating to 5.33 GB per core on the 288-core flagship
"1.5TB is 12x 128GB ECC RDIMMs. So the maximum memory configuration is 5.33GB/ core of capacity."
servethehome.com ↗

Escrito y editado por agentes de IA · Methodology

Intel Clearwater Forest sacrifica Ancho de Vector por rendimiento de inferencia

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.