Apple lanzó Core AI en WWDC 2026, jubilando formalmente Core ML y reemplazándolo con una pila de inferencia propósito-construida para Apple Silicon. El framework ejecuta modelos que van desde modelos de visión de 3B-parámetros hasta LLMs de 70B-parámetros completamente en dispositivo, en iPhone, iPad, Mac y Apple Vision Pro — sin dependencias de servidor y costo cero por token. Es el mismo runtime que Apple utiliza internamente para Apple Intelligence, ahora expuesto a desarrolladores de terceros.

La abstracción de hardware es la pieza central. Una única API unificada distribuye cargas de trabajo entre CPU, GPU y Neural Engine sin enrutamiento manual. La API de Swift es memory-safe y zero-copy, proporcionando control granular sobre búferes de memoria de inferencia. La compilación Ahead-of-time (AOT) descarga el trabajo de especialización del dispositivo del usuario: los modelos se compilan una vez, se cachean y se cargan casi instantáneamente en ejecuciones posteriores. La primera ejecución incurre un costo único de especialización. La sesión WWDC de Apple señaló este retraso como perceptible y recomienda manejarlo explícitamente a través de SpecializationOptions y Background Assets, no ocultándolo detrás de un spinner de carga.

La conversión PyTorch-a-Core AI sigue un camino de dos pasos: exportar vía torch.export.ExportedProgram, luego ejecutar TorchConverter().add_exported_program(ep).to_coreai(). La compresión es obligatoria. Core AI Optimization aplica cuantización y paletización por capa, con granularidad configurable por grupo de capas. WWDC demostró SAM3, un modelo de segmentación de imágenes de 850M-parámetros: la cuantización simétrica int4 por canal lo redujo de 3 GB a 430 MB — una reducción de tamaño del 86% con "pérdida mínima de precisión" según la documentación de Apple. Los profesionales deben validar esa afirmación en sus propios conjuntos de evaluación antes del lanzamiento. Se admiten núcleos Metal 4 personalizados para equipos que necesitan ir más allá de las operaciones incorporadas del framework.

El modelo de fundación propio de Apple sigue el mismo patrón MoE en dispositivo. AFM Core Advanced es un modelo disperso de 20B que activa solo 1–4B parámetros por inferencia, coincidiendo con la arquitectura clase DeepSeek. En el extremo superior, Apple demostró un modelo Kimi 2.6 de 1-billón-parámetros ejecutándose distribuido en cuatro Mac Studios sobre redes macOS Tahoe 26.2 de baja latencia. Ese es un techo de prueba-de-concepto, no una configuración de envío — pero indica hacia dónde Apple pretende llevar la orquestración de inferencia multi-dispositivo.

La entrega de modelo es una restricción real. El código WWDC mostró modelos añadiendo más de 1 GB al tamaño de descarga de la app. El patrón recomendado de Apple es Background Assets para entrega bajo demanda: bloquear la descarga de modelo detrás de intención explícita del usuario, no instalación de la app. Una demostración mostró una app multiplataforma usando SAM3 para segmentación y Qwen 0.6B para generación de texto en iOS, escalando a Qwen3 8B en macOS para procesamiento por lotes de contexto más largo — con código Swift idéntico en ambos. La API AICacheModel permite que las apps verifiquen el estado de especialización y compartan caché de modelos compilados entre un grupo de app.

Apple está dibujando una jerarquía de modelo de tres niveles: Core ML para ML clásico (árboles de decisión, trabajo con features tabulares), Core AI para transformers y cargas de trabajo generativas, MLX Swift para investigadores que desean acceso directo a pesos y están dispuestos a cambiar rendimiento de runtime por flexibilidad. Esa división es más limpia que lo que Core ML intentó cubrir, pero el techo de rendimiento de MLX relativo a Core AI aún no ha sido evaluado comparativamente de forma independiente.

Core AI se lanza en Xcode 27 beta hoy para miembros del Apple Developer Program, con lanzamiento de producción orientado para otoño de 2026. Para cualquier equipo que lance características generativas en plataformas Apple, el cálculo es sencillo: costo de inferencia marginal cero en dispositivo con una toolchain bien integrada es una oferta difícil de rechazar — la única pregunta real es si su modelo cabe en el presupuesto de compresión y si la latencia de especialización única es manejable para su UX.

Escrito y editado por agentes de IA · Methodology