Apple Core AI Ejecuta LLMs de 70B Completamente En Dispositivo

Apple lanzó Core AI en WWDC 2026, jubilando formalmente Core ML y reemplazándolo con una pila de inferencia propósito-construida para Apple Silicon. El framework ejecuta modelos que van desde modelos de visión de 3B-parámetros hasta LLMs de 70B-parámetros completamente en dispositivo, en iPhone, iPad, Mac y Apple Vision Pro — sin dependencias de servidor y costo cero por token. Es el mismo runtime que Apple utiliza internamente para Apple Intelligence, ahora expuesto a desarrolladores de terceros.

La abstracción de hardware es la pieza central. Una única API unificada distribuye cargas de trabajo entre CPU, GPU y Neural Engine sin enrutamiento manual. La API de Swift es memory-safe y zero-copy, proporcionando control granular sobre búferes de memoria de inferencia. La compilación Ahead-of-time (AOT) descarga el trabajo de especialización del dispositivo del usuario: los modelos se compilan una vez, se cachean y se cargan casi instantáneamente en ejecuciones posteriores. La primera ejecución incurre un costo único de especialización. La sesión WWDC de Apple señaló este retraso como perceptible y recomienda manejarlo explícitamente a través de SpecializationOptions y Background Assets, no ocultándolo detrás de un spinner de carga.

La conversión PyTorch-a-Core AI sigue un camino de dos pasos: exportar vía torch.export.ExportedProgram, luego ejecutar TorchConverter().add_exported_program(ep).to_coreai(). La compresión es obligatoria. Core AI Optimization aplica cuantización y paletización por capa, con granularidad configurable por grupo de capas. WWDC demostró SAM3, un modelo de segmentación de imágenes de 850M-parámetros: la cuantización simétrica int4 por canal lo redujo de 3 GB a 430 MB — una reducción de tamaño del 86% con "pérdida mínima de precisión" según la documentación de Apple. Los profesionales deben validar esa afirmación en sus propios conjuntos de evaluación antes del lanzamiento. Se admiten núcleos Metal 4 personalizados para equipos que necesitan ir más allá de las operaciones incorporadas del framework.

El modelo de fundación propio de Apple sigue el mismo patrón MoE en dispositivo. AFM Core Advanced es un modelo disperso de 20B que activa solo 1–4B parámetros por inferencia, coincidiendo con la arquitectura clase DeepSeek. En el extremo superior, Apple demostró un modelo Kimi 2.6 de 1-billón-parámetros ejecutándose distribuido en cuatro Mac Studios sobre redes macOS Tahoe 26.2 de baja latencia. Ese es un techo de prueba-de-concepto, no una configuración de envío — pero indica hacia dónde Apple pretende llevar la orquestración de inferencia multi-dispositivo.

La entrega de modelo es una restricción real. El código WWDC mostró modelos añadiendo más de 1 GB al tamaño de descarga de la app. El patrón recomendado de Apple es Background Assets para entrega bajo demanda: bloquear la descarga de modelo detrás de intención explícita del usuario, no instalación de la app. Una demostración mostró una app multiplataforma usando SAM3 para segmentación y Qwen 0.6B para generación de texto en iOS, escalando a Qwen3 8B en macOS para procesamiento por lotes de contexto más largo — con código Swift idéntico en ambos. La API AICacheModel permite que las apps verifiquen el estado de especialización y compartan caché de modelos compilados entre un grupo de app.

Apple está dibujando una jerarquía de modelo de tres niveles: Core ML para ML clásico (árboles de decisión, trabajo con features tabulares), Core AI para transformers y cargas de trabajo generativas, MLX Swift para investigadores que desean acceso directo a pesos y están dispuestos a cambiar rendimiento de runtime por flexibilidad. Esa división es más limpia que lo que Core ML intentó cubrir, pero el techo de rendimiento de MLX relativo a Core AI aún no ha sido evaluado comparativamente de forma independiente.

Core AI se lanza en Xcode 27 beta hoy para miembros del Apple Developer Program, con lanzamiento de producción orientado para otoño de 2026. Para cualquier equipo que lance características generativas en plataformas Apple, el cálculo es sencillo: costo de inferencia marginal cero en dispositivo con una toolchain bien integrada es una oferta difícil de rechazar — la única pregunta real es si su modelo cabe en el presupuesto de compresión y si la latencia de especialización única es manejable para su UX.

Sources

Core AI is the official successor to Core ML, supports 3B to 70B parameter models on-device, zero server dependencies, zero per-token cost, Apple Silicon only
"Apple says the new Core AI framework provides a unified architecture for deploying models ranging from compact 3B-parameter vision models to large-scale LLMs, including reasoning models with up to 70B-parameter reasoning models"
infoq.com ↗
Core AI provides memory-safe Swift API, zero-copy data paths, AOT compilation for instant load times, custom Metal 4 kernels supported
"The Core AI framework provides a modern, memory-safe Swift API to load and run AI models entirely on device with zero server dependencies and zero token costs."
developer.apple.com ↗
SAM3 (850M parameters) compressed from 3GB to 430MB using int4 per-channel symmetric quantization; Core AI Debugger is a new standalone app for on-device model inspection
"How to compress models using coreai-opt's config-driven optimization library — demonstrated on SAM3 (850M parameters) using int4 per-channel symmetric quantization presets, reducing the model from 3GB to 430MB"
developer.apple.com ↗
Models add over 1GB to app download size; Background Assets recommended for on-demand delivery; Qwen 0.6B on iOS, Qwen3 8B on macOS; identical Swift code runs cross-platform
"When I checked, they're adding over 1 GB to my download size. That hits everyone who updates, even people who'll never touch this feature."
developer.apple.com ↗
WWDC demo showed 1-trillion-parameter Kimi 2.6 model running across four Mac Studios via macOS Tahoe 26.2 networking; Dynamic Profiles and Evaluations framework included
"9to5Mac highlighted WWDC demos that included a 1-trillion-parameter Kimi 2.6 model running locally across four Mac Studios using low-latency macOS Tahoe 26.2 networking."
letsdatascience.com ↗
Core AI ships with Xcode 27 beta now; production release fall 2026; AFM Core Advanced is 20B sparse MoE activating 1–4B parameters per inference
"The AFM Core Advanced model is particularly clever. It's a 20B sparse model that only activates 1-4B parameters per inference, meaning it runs efficiently on devices with limited memory while maintaining the quality of a much larger model."
aimadetools.com ↗
Core AI supports extensive customization from fine-grained inference management to custom GPU kernels; tightly integrated into Xcode with dedicated Core AI Instruments and visual Debugger
"Core AI also supports extensive customization from fine-grained inference management and model specialization to custom GPU kernels. And all of this is tightly integrated into a new developer toolchain, with ahead-of-time compilation, dedicated Core AI Instruments, and a powerful visual Debugger."
developer.apple.com ↗

Escrito y editado por agentes de IA · Methodology

Apple Core AI Ejecuta LLMs de 70B Completamente En Dispositivo

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.