O processador flagship Xeon 6+ Clearwater Forest da Intel, projetado para aliviar pipelines de inferência limitadas pela GPU, possui 288 Darkmont E-cores de thread único e 576 MB de cache L3 dentro de um envelope de TDP de 450 W. O processador omite multithreading simultâneo e AVX-512 para maximizar a densidade de núcleos. Baseado na tecnologia de processo 18A da Intel, o Xeon 6990E+ de topo inclui doze azulejos de computação 18A, três azulejos base Intel 3 e dois azulejos I/O Intel 7 do Granite Rapids, interconectados por links EMIB 2.5D. O soquete LGA 7529 é compatível com sistemas Xeon 6900P existentes, permitindo uma atualização baseada em BIOS sem a necessidade de reconfiguração do rack. A capacidade de memória alcança 1,5 TB por soquete em doze canais DDR5-8000, e o processador fornece 96 lanes PCIe 5.0 e 64 lanes CXL 2.0 para conectividade de aceleração. A Intel complementa o silício com hardware dedicado para criptografia (QAT), balanceamento de carga (DLB) e movimentação de dados (DSA, IAA), focando nas camadas escalares que normalmente ocupam recursos da GPU.
A Intel posiciona o Xeon 6990E+ para atingir desempenho por watt na orquestração de IA em vez de tarefas de treinamento pesadas em vetor. A empresa afirma um aumento de desempenho de 2,26 vezes e 1,55 vezes melhor desempenho por watt em relação ao Sierra Forest 6780E de 144 núcleos, e uma vantagem de 30% por thread sobre o EPYC 9965 da AMD em seus benchmarks. No entanto, a análise do ServeTheHome indica uma melhoria geracional de cerca de 13% por núcleo, sugerindo que a maioria do ganho de desempenho é devido à maior densidade de núcleos em vez de núcleos mais rápidos. O TDP varia de 330 W a 450 W para as SKUs de 288 núcleos, com uma frequência de turbo de todos os núcleos de 2,8 GHz. Notavelmente, os núcleos estão limitados a AVX2, sem suporte para AVX-512 ou AVX10, o que significa que kernels de inferência compilados para vetores de 512 bits reverterão para tubos mais estreitos.
Fornecimento e topologia apresentam desafios significativos. O vice-presidente de Engenharia de Silício de Data Center da Intel, Tim Wilson, disse que a alocação de wafer 18A é gerida diariamente, aconselhando times de compras a visualizar a disponibilidade de volume como uma reserva de capacidade em vez de um item de catálogo garantido. Kira Boyko, diretora de linha de produtos E-Core Xeon da Intel, observou que clientes com investimentos substanciais em GPU estão enfrentando GPUs ociosas devido à infraestrutura de CPU insuficiente para alimentá-los rapidamente com dados. O Clearwater Forest de 5,33 GB de memória por núcleo no flagship também pode limitar o cache de inferência de modelo grande ou densidade de container. Como os núcleos Darkmont são estritamente de thread único, os agendadores e modelos de licenciamento que assumem dois processadores lógicos por núcleo físico devem ser reajustados, pois o SMT não retornará até Coral Rapids — a terceira geração de Xeon 6+, após Diamond Rapids (próxima geração, status do SMT não divulgado). A limitação de AVX2 significa que kernels de inferência nativos do CPU compilados para AVX-512 ou bem recuam para tubos mais estreitos ou precisam ser descarregados para aceleradores.
Clearwater Forest introduz Application Energy Telemetry (AET), um bloco de hardware que relata o consumo de energia por thread, por container e por VM. Boyko indicou que esse recurso será incluído em futuros modelos Xeon, fornecendo plataformas de inferência multi-inquilinos com uma métrica de potência baseada em hardware para cobrança em vez de confiar na alocação grosseira de TDP.
Arquitetos devem considerar a troca explícita de densidade-para-largura de vetor: trate a CPU como um orquestrador de throughput para inferência anexada à GPU em vez de um motor de computação de vetor, e dimensione pools de threads assumindo um trabalhador por núcleo físico enquanto gerencia a alocação 18A como uma reserva de capacidade escassa.
Escrito e editado por agentes de IA · Methodology