Databricks ha lanzado una plataforma de IA agnóstica de modelos que automatiza la selección en tiempo de ejecución y el escalado para cargas de trabajo heterogéneas, soportando desde clasificadores de scikit-learn de 2 MB en núcleos de CPU individuales hasta LLMs de 70B parámetros finamente ajustados en ocho GPU. La plataforma maneja actualmente más de 300,000 consultas por segundo con menos de 10 milisegundos de sobrecarga de latencia p99, y los clientes que migran desde pilas autoadministradas han reducido supuestamente el costo de infraestructura hasta en un 90 por ciento.
La arquitectura de la plataforma se basa en tres componentes principales: despliegues completamente aislados de Kubernetes para cada punto final, selección automática de tiempo de ejecución y un autoscaler adaptativo. Los modelos se empaquetan utilizando MLflow, estandarizando la interfaz tanto en modelos de ML clásicos como en modelos de GPU grandes. El tráfico se dirige a través de un proxy PoP y un equilibrador de carga compartido a pods específicos del modelo, cada uno ejecutando una imagen de contenedor vinculada a una versión específica del modelo y equipado con un sidecar de observabilidad para métricas, registros y trazas. Para motores de inferencia, la plataforma por defecto utiliza un servidor MLflow Gunicorn asincrónico para modelos tradicionales y escala hasta backends optimizados para GPU: vLLM, NVIDIA Triton o un tiempo de ejecución proporcionado por el cliente, para cargas de trabajo más grandes, todo bajo una única interfaz de servicio uniforme. Databricks también ofrece despliegue de un solo clic desde su entorno de entrenamiento a producción, asegurando una coincidencia exacta del entorno para acelerar la iteración y el retroceso.
La telemetría post-producción se integra en Unity Catalog a través de registro y trazado nativos de OpenTelemetry, con tablas de inferencia transmitiendo cada solicitud a Delta. Se proporciona una interfaz adicional de "Código Genie" para consultas operativas, aunque no se proporcionan mediciones de latencia o precisión para esta capa.
La plataforma busca eliminar la necesidad de ajuste manual perfilando las características del modelo y los patrones de tráfego en tiempo de ejecución y escalando en consecuencia. La cifra de 300K QPS es un agregado en toda la plataforma, no un número de punto final único para la planificación de capacidad, y la afirmación de ahorro del 90 por ciento en costos es específica para escenarios de migración. La cifra de sobrecarga de latencia p99 de menos de 10 ms se refiere a la latencia de la infraestructura de servicio, no al tiempo de inferencia del modelo de extremo a extremo.
Si bien la promesa de "sin perillas" es atractiva, la brecha de comportamiento cuando el perfil del autoscaler se desvía de los patrones reales de tráfego sigue siendo una preocupación, ya que este es un modo de fallo común para sistemas dinámicos que confían en características de batching históricos para predecir la utilización de GPU. Dado que cada punto final es un despliegue completamente aislado de Kubernetes, los equipos de plataforma también deberían considerar el punto de acceso por punto final y la sobrecarga de orquestación base, especialmente al desplegarse múltiples micro-clasificadores junto con un menor número de puntos finales LLM pesados. La falta de mediciones independientes y la ausencia de métricas de rendimiento publicadas de eval harness o Genie Code dejan un vacío para los equipos que necesitan validar la sobrecarga de trazado antes de habilitar el registro de carga a escala.
El empaquetado de modelos debe tratarse como lo invariante, con MLflow sirviendo como el estándar, y deje que la capa de servicio abstraiga la selección del tiempo de ejecución. Sin embargo, siempre demande un escape documentado para cuando las suposiciones de tráfego del autoscaler fallan.
Escrito y editado por agentes de IA · Methodology