Clústeres de Mac Studio ofrecen inferencia de 671B-parámetros por $32,000

La pila de RDMA sobre Thunderbolt 5 nativa de macOS Tahoe 26.2 permite la inferencia distribuida en Apple Silicon para modelos de lenguaje grandes de 100 mil millones de parámetros, permitiendo que un clúster de cuatro nodos de Mac Studio M3 Ultra ejecute DeepSeek V3.1 671B aproximadamente a 25 tok/s completamente en sus instalaciones sin APIs en la nube o egreso de datos. Tahoe 26.2 reduce la latencia de nodo a nodo a 5-9 µs a 80 Gb/s, a partir de aproximadamente 300 µs bajo el anterior régimen de TCP/IP sobre Thunderbolt, convirtiendo una novedad en una arquitectura de servicio viable.

Para la inferencia de un tamaño de lote de uno acotada por la memoria, el Mac Studio M4 Max ofrece 546 GB/s de ancho de banda de memoria unificada frente a aproximadamente 34 TFLOPS de cálculo FP16, una relación de ancho de banda a cálculo de 8.02, o aproximadamente cinco veces la de un RTX 4090, haciendo que el Silicon de Apple sea inherentemente más adecuado para la inferencia de un solo usuario donde predomina el streaming de pesos. El servicio de un solo nodo se maneja típicamente con llama.cpp, MLX o MLC-LLM, con Ollama proporcionando un contenedor de conveniencia. Para modelos que superan una máquina — DBRX 132B, Qwen3 235B o DeepSeek V3.1 671B — Exo 1.0 agrupa Macs sobre Thunderbolt 5 usando paralelismo de tensores, requiriendo silicio Thunderbolt 5 como el M4 Pro, M4 Max o M3 Ultra y macOS Tahoe 26.2 o posterior. Los dispositivos se descubren automáticamente en la red local y Exo proporciona soporte desde el día 0 para el transporte RDMA.

El benchmark de inferencia de producción de arXiv en un Mac Studio M2 Ultra encontró que MLX proporciona el rendimiento de generación más sostenible, MLC-LLM el menor tiempo hasta el primer token para prompts moderados, llama.cpp eficiente para el uso de flujo único ligero y Ollama conveniente pero más lento en ambos rendimiento y TTFT.

Operativamente, el paralelismo de tensores de Exo produce un aumento de rendimiento del 1.8× en dos nodos y 3.2× en cuatro nodos. Un clúster de cuatro nodos M3 Ultra, que cuesta aproximadamente $32,000 en hardware, 2 TB de memoria unificada total y alrededor de $50 al mes en energía, impulsa la inferencia en el mundo real a 22 tok/s en Devstral 123B en 4 bits, aproximadamente 40 tok/s en Qwen 480B coder en 4 bits y alrededor de 34 tok/s en el MoE Kimi K2 de parámetros trillón en 4 bits. En DeepSeek V3.1 671B en 8 bits, el mismo clúster entrega aproximadamente 25 tok/s. Para configuraciones más densas, un clúster de ocho nodos M4 Pro Mac Mini midió 5.37 tok/s en DeepSeek V3 671B en 4 bits con un TTFT de 2.91 segundos.

Frente a la inferencia en la nube cotizada aproximadamente en $0.14 por millón de tokens de entrada y $0.28 por millón de tokens de salida, el stack de cuatro nodos de Studio se recupera en 16 a 32 meses para uso moderado; amortizado en 36 meses en cincuenta usuarios, se sitúa cerca de £49 por usuario por mes incluyendo energía. Para las tiendas acaudaladas por la conformidad, la inferencia local elimina por completo la superficie de egreso en la nube GDPR, HIPAA y AI Act de la UE. El estudio de MoE multi-nodo de RACS 2024 encontró que el Silicon de Apple es aproximadamente 1.15× tan rentable como el H100 en la inferencia DBRX, aunque también advierte que en dos a cuatro clústeres de Mac Studio, el tiempo de comunicación se acerca al tiempo de cómputo, y la sobrecarga de gestión de memoria requiere esquemas de optimización personalizados para evitar el bloqueo. Incluso con RDMA, el estudio de arXiv advierte que el Silicon de Apple todavía sigue a los sistemas basados en GPU de NVIDIA como vLLM en rendimiento absoluto, y PyTorch MPS sigue siendo limitado en memoria en modelos grandes y contextos largos. Los nodos heredados M1 y M2 en un clúster Exo retroceden al transporte TCP/IP y pierden la ventaja de latencia.

Más allá de los benchmarks, activar RDMA requiere comandos manuales a través del modo de recuperación de macOS, no hay interruptor de Configuración del Sistema, por lo que el inicio sigue siendo de etapa temprana. Los arquitectos deben mantener la seguridad física, ciclos de parche y conmutación por error sin un SLA en la nube. La ergonomía de Ollama sigue siendo popular para la prototipación de un solo nodo, pero las tiendas que buscan el servicio multi-nodo deben tratar a MLX Distributed o Exo 1.0 como la capa de servicio y benchmark MLC-LLM si TTFT es el camino crítico.

El patrón transferible es simple: para la inferencia de LLM acotada por ancho de banda de memoria, de un tamaño de lote de uno, un clúster RDMA de Thunderbolt-5 que ejecuta Exo o MLX Distributed es actualmente el camino más barato al servicio de 100B-parámetros en sus instalaciones — siempre que cada nodo en el rack sea silicio Thunderbolt 5 y automatice el inicio de RDMA.

Sources

M4 Pro 14-core 48GB 1TB Mac Mini lists at ~$1,999; M4 Pro memory bandwidth ~273 GB/s; 24GB M4 Pro 512GB variant at $1,399
"M4 Pro 14c CPU / 20c GPU 48GB 1TB ~$1,999"
dev.to ↗
EXO Labs 4x Mac Mini M4 ($599 each) + MacBook Pro M4 Max = 496GB unified memory under $5,000; Qwen2.5Coder-32B at 18 tok/s; Nemotron-70B at 8 tok/s
"This setup runs Qwen 2.5 Coder-32B at 18 tokens/second and Nemotron-70B at eight tokens per second."
introl.com ↗
Four Mac Studio M3 Ultra (512 GB each) cluster costs approximately $38,000 (4 × $9,499); DeepSeek V3.1 671B 8-bit at ~25 tok/s; Kimi K2 1T MoE at ~34 tok/s; RDMA latency 5–9 µs at 80 Gb/s; cluster better suited for batch inference than interactive chat; RDMA requires recovery mode setup; M1/M2 nodes on Thunderbolt 4 fall back to TCP/IP; IOMMU isolates memory per peripheral; simplifies GDPR, HIPAA, NIS2 compliance
"DeepSeek v3.1 (671B, 8-bit): ~25 tokens/s across four nodes… Kimmi K2 (trillion-parameter MoE): ~34 tokens/s across four nodes"
stabilise.io ↗
Mac Studio M3 Ultra 512GB 1TB configuration priced at $9,499; four units total ~$37,996
"The maximum 512GB configuration adds $2,400 over the 256GB option, resulting in a $9,499 price for the top memory configuration with 1TB storage."
introl.com ↗
MLX achieves highest sustained generation throughput on Mac Studio M2 Ultra; MLC-LLM delivers lowest TTFT; llama.cpp most efficient single-stream; Ollama most ergonomic but lags throughput and TTFT; Apple Silicon frameworks still trail NVIDIA vLLM in absolute performance
"MLX achieves the highest sustained generation throughput, while MLC-LLM delivers consistently lower TTFT for moderate prompt sizes… Apple Silicon inference frameworks still trail NVIDIA GPU-based systems such as vLLM in absolute performance."
arxiv.org ↗
Mac Studio M2 Ultra cluster runs DBRX 132B MoE; 1.15× more cost-efficient than NVIDIA H100 supercomputer; communication time approaches computation time on MoE expert routing
"the Mac Studio cluster is 1.15 times more cost-efficient than the state-of-the-art AI supercomputer with NVIDIA H100 GPUs."
arxiv.org ↗
DeepSeek V3 671B at 5.37 tok/s on 8x M4 Pro Mac Minis; tensor parallelism 1.8× speedup on 2 nodes, 3.2× on 4 nodes
"DeepSeek V3 (671B) runs at 5.37 tokens per second on a cluster of eight M4 Pro Mac Minis… On 2 devices you get up to 1.8x speedup; on 4 devices up to 3.2x."
virge.io ↗

Escrito y editado por agentes de IA · Methodology

Clústeres de Mac Studio ofrecen inferencia de 671B-parámetros por $32,000

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.