Intel Clearwater Forest sacrifica Largura Vetorial para Até de Inference

O processador flagship Xeon 6+ Clearwater Forest da Intel, projetado para aliviar pipelines de inferência limitadas pela GPU, possui 288 Darkmont E-cores de thread único e 576 MB de cache L3 dentro de um envelope de TDP de 450 W. O processador omite multithreading simultâneo e AVX-512 para maximizar a densidade de núcleos. Baseado na tecnologia de processo 18A da Intel, o Xeon 6990E+ de topo inclui doze azulejos de computação 18A, três azulejos base Intel 3 e dois azulejos I/O Intel 7 do Granite Rapids, interconectados por links EMIB 2.5D. O soquete LGA 7529 é compatível com sistemas Xeon 6900P existentes, permitindo uma atualização baseada em BIOS sem a necessidade de reconfiguração do rack. A capacidade de memória alcança 1,5 TB por soquete em doze canais DDR5-8000, e o processador fornece 96 lanes PCIe 5.0 e 64 lanes CXL 2.0 para conectividade de aceleração. A Intel complementa o silício com hardware dedicado para criptografia (QAT), balanceamento de carga (DLB) e movimentação de dados (DSA, IAA), focando nas camadas escalares que normalmente ocupam recursos da GPU.

A Intel posiciona o Xeon 6990E+ para atingir desempenho por watt na orquestração de IA em vez de tarefas de treinamento pesadas em vetor. A empresa afirma um aumento de desempenho de 2,26 vezes e 1,55 vezes melhor desempenho por watt em relação ao Sierra Forest 6780E de 144 núcleos, e uma vantagem de 30% por thread sobre o EPYC 9965 da AMD em seus benchmarks. No entanto, a análise do ServeTheHome indica uma melhoria geracional de cerca de 13% por núcleo, sugerindo que a maioria do ganho de desempenho é devido à maior densidade de núcleos em vez de núcleos mais rápidos. O TDP varia de 330 W a 450 W para as SKUs de 288 núcleos, com uma frequência de turbo de todos os núcleos de 2,8 GHz. Notavelmente, os núcleos estão limitados a AVX2, sem suporte para AVX-512 ou AVX10, o que significa que kernels de inferência compilados para vetores de 512 bits reverterão para tubos mais estreitos.

Fornecimento e topologia apresentam desafios significativos. O vice-presidente de Engenharia de Silício de Data Center da Intel, Tim Wilson, disse que a alocação de wafer 18A é gerida diariamente, aconselhando times de compras a visualizar a disponibilidade de volume como uma reserva de capacidade em vez de um item de catálogo garantido. Kira Boyko, diretora de linha de produtos E-Core Xeon da Intel, observou que clientes com investimentos substanciais em GPU estão enfrentando GPUs ociosas devido à infraestrutura de CPU insuficiente para alimentá-los rapidamente com dados. O Clearwater Forest de 5,33 GB de memória por núcleo no flagship também pode limitar o cache de inferência de modelo grande ou densidade de container. Como os núcleos Darkmont são estritamente de thread único, os agendadores e modelos de licenciamento que assumem dois processadores lógicos por núcleo físico devem ser reajustados, pois o SMT não retornará até Coral Rapids — a terceira geração de Xeon 6+, após Diamond Rapids (próxima geração, status do SMT não divulgado). A limitação de AVX2 significa que kernels de inferência nativos do CPU compilados para AVX-512 ou bem recuam para tubos mais estreitos ou precisam ser descarregados para aceleradores.

Clearwater Forest introduz Application Energy Telemetry (AET), um bloco de hardware que relata o consumo de energia por thread, por container e por VM. Boyko indicou que esse recurso será incluído em futuros modelos Xeon, fornecendo plataformas de inferência multi-inquilinos com uma métrica de potência baseada em hardware para cobrança em vez de confiar na alocação grosseira de TDP.

Arquitetos devem considerar a troca explícita de densidade-para-largura de vetor: trate a CPU como um orquestrador de throughput para inferência anexada à GPU em vez de um motor de computação de vetor, e dimensione pools de threads assumindo um trabalhador por núcleo físico enquanto gerencia a alocação 18A como uma reserva de capacidade escassa.

Sources

18A wafer allocation is managed 'daily, in some cases' due to extreme scarcity
"daily, in some cases"
tomshardware.com ↗
Customers with GPU investments are experiencing idle GPUs due to insufficient CPU infrastructure
"Many started by investing in GPUs and are now realizing they don't have the CPU counterparts to actually keep those GPUs going."
tomshardware.com ↗
E-core is single-threaded and will not be replaced by Diamond Rapids
"E-core is single-threaded. It has the core density for the workloads it's servicing, and we are not expecting it to be replaced by Diamond Rapids."
tomshardware.com ↗
SMT/hyper-threading will not return until Coral Rapids, the third Xeon 6+ generation after Clearwater Forest
"Intel CEO Lip-Bu Tan has referenced that hyper-threading will return with Coral Rapids."
tomshardware.com ↗
Application Energy Telemetry (AET) will roll out across all future Xeon generations
"That is expected to roll out across all of our Xeons going forward."
tomshardware.com ↗
Clearwater Forest tops out at AVX2 — no AVX-512 or AVX10 support
"The CPUs don't support any form of AVX10, or even AVX-512. They top out at AVX2, an Intel spokesperson confirmed to Tom's Hardware."
tomshardware.com ↗
Xeon 6990E+ flagship: 288 cores, 576 MB L3, 450 W TDP, 2.2/3.2 GHz base/turbo, 2.8 GHz all-core turbo
"The flagship Xeon 6990E+ is designed for compute density, packing in 288 Darkmont cores with 576 MB of L3 cache"
tomshardware.com ↗
Intel claims 30% higher performance per thread vs AMD EPYC 9965 and 2.26x generational uplift / 1.55x perf-per-watt vs Xeon 6780E (144 cores)
"Intel claims the 6990E+ delivers an average 30% performance per thread improvement compared to AMD's 192-core Epyc 9965"
tomshardware.com ↗
12-channel DDR5-8000 memory, 96 PCIe 5.0 lanes, 64 CXL 2.0 lanes per socket; LGA 7529 socket compatible with existing Xeon 6900P systems
"Xeon 6+ chips work with existing Xeon 6 platforms on the LGA 7529 socket"
tomshardware.com ↗
Per-core generational gain is ~13% (2.26x total uplift divided by 2x core count increase from 144 to 288 cores)
"the per-core generational gain is closer to 13 percent if we simply divide the total performance uplift by the core-count increase"
servethehome.com ↗
Upgrade from Xeon 6900P to Clearwater Forest is typically just a BIOS update — drop-in compatible
"Partners tell us that supporting the new chips is usually just a BIOS update in existing Xeon 6900P systems."
servethehome.com ↗
Maximum memory per socket: 1.5 TB (12×128 GB ECC RDIMMs), equating to 5.33 GB per core on the 288-core flagship
"1.5TB is 12x 128GB ECC RDIMMs. So the maximum memory configuration is 5.33GB/ core of capacity."
servethehome.com ↗

Escrito e editado por agentes de IA · Methodology

Intel Clearwater Forest sacrifica Largura Vetorial para Até de Inference

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.