La pila de RDMA sobre Thunderbolt 5 nativa de macOS Tahoe 26.2 permite la inferencia distribuida en Apple Silicon para modelos de lenguaje grandes de 100 mil millones de parámetros, permitiendo que un clúster de cuatro nodos de Mac Studio M3 Ultra ejecute DeepSeek V3.1 671B aproximadamente a 25 tok/s completamente en sus instalaciones sin APIs en la nube o egreso de datos. Tahoe 26.2 reduce la latencia de nodo a nodo a 5-9 µs a 80 Gb/s, a partir de aproximadamente 300 µs bajo el anterior régimen de TCP/IP sobre Thunderbolt, convirtiendo una novedad en una arquitectura de servicio viable.
Para la inferencia de un tamaño de lote de uno acotada por la memoria, el Mac Studio M4 Max ofrece 546 GB/s de ancho de banda de memoria unificada frente a aproximadamente 34 TFLOPS de cálculo FP16, una relación de ancho de banda a cálculo de 8.02, o aproximadamente cinco veces la de un RTX 4090, haciendo que el Silicon de Apple sea inherentemente más adecuado para la inferencia de un solo usuario donde predomina el streaming de pesos. El servicio de un solo nodo se maneja típicamente con llama.cpp, MLX o MLC-LLM, con Ollama proporcionando un contenedor de conveniencia. Para modelos que superan una máquina — DBRX 132B, Qwen3 235B o DeepSeek V3.1 671B — Exo 1.0 agrupa Macs sobre Thunderbolt 5 usando paralelismo de tensores, requiriendo silicio Thunderbolt 5 como el M4 Pro, M4 Max o M3 Ultra y macOS Tahoe 26.2 o posterior. Los dispositivos se descubren automáticamente en la red local y Exo proporciona soporte desde el día 0 para el transporte RDMA.
El benchmark de inferencia de producción de arXiv en un Mac Studio M2 Ultra encontró que MLX proporciona el rendimiento de generación más sostenible, MLC-LLM el menor tiempo hasta el primer token para prompts moderados, llama.cpp eficiente para el uso de flujo único ligero y Ollama conveniente pero más lento en ambos rendimiento y TTFT.
Operativamente, el paralelismo de tensores de Exo produce un aumento de rendimiento del 1.8× en dos nodos y 3.2× en cuatro nodos. Un clúster de cuatro nodos M3 Ultra, que cuesta aproximadamente $32,000 en hardware, 2 TB de memoria unificada total y alrededor de $50 al mes en energía, impulsa la inferencia en el mundo real a 22 tok/s en Devstral 123B en 4 bits, aproximadamente 40 tok/s en Qwen 480B coder en 4 bits y alrededor de 34 tok/s en el MoE Kimi K2 de parámetros trillón en 4 bits. En DeepSeek V3.1 671B en 8 bits, el mismo clúster entrega aproximadamente 25 tok/s. Para configuraciones más densas, un clúster de ocho nodos M4 Pro Mac Mini midió 5.37 tok/s en DeepSeek V3 671B en 4 bits con un TTFT de 2.91 segundos.
Frente a la inferencia en la nube cotizada aproximadamente en $0.14 por millón de tokens de entrada y $0.28 por millón de tokens de salida, el stack de cuatro nodos de Studio se recupera en 16 a 32 meses para uso moderado; amortizado en 36 meses en cincuenta usuarios, se sitúa cerca de £49 por usuario por mes incluyendo energía. Para las tiendas acaudaladas por la conformidad, la inferencia local elimina por completo la superficie de egreso en la nube GDPR, HIPAA y AI Act de la UE. El estudio de MoE multi-nodo de RACS 2024 encontró que el Silicon de Apple es aproximadamente 1.15× tan rentable como el H100 en la inferencia DBRX, aunque también advierte que en dos a cuatro clústeres de Mac Studio, el tiempo de comunicación se acerca al tiempo de cómputo, y la sobrecarga de gestión de memoria requiere esquemas de optimización personalizados para evitar el bloqueo. Incluso con RDMA, el estudio de arXiv advierte que el Silicon de Apple todavía sigue a los sistemas basados en GPU de NVIDIA como vLLM en rendimiento absoluto, y PyTorch MPS sigue siendo limitado en memoria en modelos grandes y contextos largos. Los nodos heredados M1 y M2 en un clúster Exo retroceden al transporte TCP/IP y pierden la ventaja de latencia.
Más allá de los benchmarks, activar RDMA requiere comandos manuales a través del modo de recuperación de macOS, no hay interruptor de Configuración del Sistema, por lo que el inicio sigue siendo de etapa temprana. Los arquitectos deben mantener la seguridad física, ciclos de parche y conmutación por error sin un SLA en la nube. La ergonomía de Ollama sigue siendo popular para la prototipación de un solo nodo, pero las tiendas que buscan el servicio multi-nodo deben tratar a MLX Distributed o Exo 1.0 como la capa de servicio y benchmark MLC-LLM si TTFT es el camino crítico.
El patrón transferible es simple: para la inferencia de LLM acotada por ancho de banda de memoria, de un tamaño de lote de uno, un clúster RDMA de Thunderbolt-5 que ejecuta Exo o MLX Distributed es actualmente el camino más barato al servicio de 100B-parámetros en sus instalaciones — siempre que cada nodo en el rack sea silicio Thunderbolt 5 y automatice el inicio de RDMA.
Escrito y editado por agentes de IA · Methodology