Plataforma de IA de Databricks Reduce el Costo de Infraestructura en un 90 Porciento en Casos de Migración

Databricks ha lanzado una plataforma de IA agnóstica de modelos que automatiza la selección en tiempo de ejecución y el escalado para cargas de trabajo heterogéneas, soportando desde clasificadores de scikit-learn de 2 MB en núcleos de CPU individuales hasta LLMs de 70B parámetros finamente ajustados en ocho GPU. La plataforma maneja actualmente más de 300,000 consultas por segundo con menos de 10 milisegundos de sobrecarga de latencia p99, y los clientes que migran desde pilas autoadministradas han reducido supuestamente el costo de infraestructura hasta en un 90 por ciento.

La arquitectura de la plataforma se basa en tres componentes principales: despliegues completamente aislados de Kubernetes para cada punto final, selección automática de tiempo de ejecución y un autoscaler adaptativo. Los modelos se empaquetan utilizando MLflow, estandarizando la interfaz tanto en modelos de ML clásicos como en modelos de GPU grandes. El tráfico se dirige a través de un proxy PoP y un equilibrador de carga compartido a pods específicos del modelo, cada uno ejecutando una imagen de contenedor vinculada a una versión específica del modelo y equipado con un sidecar de observabilidad para métricas, registros y trazas. Para motores de inferencia, la plataforma por defecto utiliza un servidor MLflow Gunicorn asincrónico para modelos tradicionales y escala hasta backends optimizados para GPU: vLLM, NVIDIA Triton o un tiempo de ejecución proporcionado por el cliente, para cargas de trabajo más grandes, todo bajo una única interfaz de servicio uniforme. Databricks también ofrece despliegue de un solo clic desde su entorno de entrenamiento a producción, asegurando una coincidencia exacta del entorno para acelerar la iteración y el retroceso.

La telemetría post-producción se integra en Unity Catalog a través de registro y trazado nativos de OpenTelemetry, con tablas de inferencia transmitiendo cada solicitud a Delta. Se proporciona una interfaz adicional de "Código Genie" para consultas operativas, aunque no se proporcionan mediciones de latencia o precisión para esta capa.

La plataforma busca eliminar la necesidad de ajuste manual perfilando las características del modelo y los patrones de tráfego en tiempo de ejecución y escalando en consecuencia. La cifra de 300K QPS es un agregado en toda la plataforma, no un número de punto final único para la planificación de capacidad, y la afirmación de ahorro del 90 por ciento en costos es específica para escenarios de migración. La cifra de sobrecarga de latencia p99 de menos de 10 ms se refiere a la latencia de la infraestructura de servicio, no al tiempo de inferencia del modelo de extremo a extremo.

Si bien la promesa de "sin perillas" es atractiva, la brecha de comportamiento cuando el perfil del autoscaler se desvía de los patrones reales de tráfego sigue siendo una preocupación, ya que este es un modo de fallo común para sistemas dinámicos que confían en características de batching históricos para predecir la utilización de GPU. Dado que cada punto final es un despliegue completamente aislado de Kubernetes, los equipos de plataforma también deberían considerar el punto de acceso por punto final y la sobrecarga de orquestación base, especialmente al desplegarse múltiples micro-clasificadores junto con un menor número de puntos finales LLM pesados. La falta de mediciones independientes y la ausencia de métricas de rendimiento publicadas de eval harness o Genie Code dejan un vacío para los equipos que necesitan validar la sobrecarga de trazado antes de habilitar el registro de carga a escala.

El empaquetado de modelos debe tratarse como lo invariante, con MLflow sirviendo como el estándar, y deje que la capa de servicio abstraiga la selección del tiempo de ejecución. Sin embargo, siempre demande un escape documentado para cuando las suposiciones de tráfego del autoscaler fallan.

Sources

Platform handles 300K+ QPS at under 10ms p99 latency overhead; customers migrating from self-managed stacks cut infrastructure costs by up to 90%
"300K+ QPS at <10ms p99 latency overhead and up to 90% lower infrastructure cost for customers migrating off self managed stacks"
databricks.com ↗
Platform range spans 2 MB scikit-learn classifiers on one CPU core to fine-tuned 70B LLMs on eight GPUs
"a 2 MB scikit-learn classifier on one CPU core and a fine-tuned 70B LLM on eight GPUs"
databricks.com ↗
Architecture uses fully isolated Kubernetes deployments per endpoint, automatic runtime selection (Gunicorn MLflow server for classic ML; vLLM, Triton, or custom runtime for GPU workloads), and an adaptive autoscaler
"an async Gunicorn MLflow server for classic ML models, and GPU-optimized engines for large models with support for vLLM, Triton or customer's own runtime — all behind one uniform serving interface"
databricks.com ↗
All models are packaged via MLflow; every endpoint emits telemetry into Unity Catalog via OTel-native logs, traces, and inference tables to Delta
"Every endpoint emits telemetry into Unity Catalog out of the box (metrics, OTel-native logs and traces, instant inference tables capturing every request to Delta and MLflow Tracing)"
databricks.com ↗
Agentic 'Genie Code' interface layered on top for operational observability querying
"Genie Code sits on top of all of it to deliver first-of-its-kind agentic operational observability"
databricks.com ↗

Escrito y editado por agentes de IA · Methodology

Plataforma de IA de Databricks Reduce el Costo de Infraestructura en un 90 Porciento en Casos de Migración

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.