Plataforma de IA da Databricks Reduz Custos de Infraestrutura em 90% nos Casos de Migração

A Databricks lançou uma plataforma de IA agnóstica a modelos que automatiza a seleção de runtime e dimensionamento automático para cargas de trabalho heterogêneas, suportando tudo, desde classificadores scikit-learn de 2 MB em núcleos de CPU único até LLMs com 70B parâmetros finamente aperfeiçoados em oito GPUs. A plataforma atualmente lida com mais de 300.000 consultas por segundo com menos de 10 milissegundos de sobrecarga de latência p99, e clientes que migram de pilhas autogerenciadas relataram redução de até 90% nos custos de infraestrutura.

A arquitetura da plataforma é baseada em três componentes principais: implantações totalmente isoladas do Kubernetes para cada endpoint, seleção automática de runtime e um dimensionador adaptativo. Os modelos são empacotados usando MLflow, padronizando a interface entre modelos clássicos de ML e grandes modelos de GPU. O tráfego é direcionado através de um proxy PoP e balanceador de carga compartilhado para pods específicos do modelo, cada um executando uma imagem de contêiner associada a uma versão específica do modelo e equipado com um sidecar de observabilidade para métricas, logs e rastros. Para motores de inferência, a plataforma padroniza um servidor MLflow Gunicorn assíncrono para modelos tradicionais e escala para backends otimizados para GPU - vLLM, NVIDIA Triton, ou runtime fornecido pelo cliente - para cargas de trabalho maiores, tudo sob uma única interface de serviço uniforme. A Databricks também oferece implantação de clique único do ambiente de treinamento para produção, garantindo uma correspondência exata do ambiente para acelerar a iteração e o rollback.

A telemetria pós-produção é integrada ao Unity Catalog via registro e rastreamento nativo do OpenTelemetry, com tabelas de inferência transmitindo cada solicitação para o Delta. Uma interface adicional de "Código Gênio" é fornecida para consulta operacional, embora nenhuma métrica de latência ou precisão seja fornecida para esta camada.

A plataforma visa eliminar a necessidade de ajuste manual, criando perfis dos recursos do modelo e padrões de tráfego em tempo real e dimensionando adequadamente. O número de 300K QPS é um agregado em toda a plataforma, não um número de ponto único para planejamento de capacidade, e a alegação de economia de 90% nos custos é específica para cenários de migração. A figura de sobrecarga de latência de infraestrutura de menos de 10ms p99 refere-se à latência da infraestrutura de serviço, não ao tempo de inferência do modelo de ponta a ponta.

Enquanto a promessa de "nenhum botão" é atraente, a lacuna de comportamento quando o perfil do dimensionador automático diverge dos padrões reais de tráfego permanece uma preocupação, pois este é um modo de falha comum para sistemas dinâmicos que confiam em características de agrupamento históricos para prever a utilização da GPU. Como cada endpoint é uma implantação totalmente isolada do Kubernetes, equipes de plataforma também devem considerar o overhead de início frio por endpoint e base de orquestração, especialmente ao implantar vários micro-classifiers ao lado de um menor número de pontos finais LLM pesados. A falta de benchmarks independentes e a ausência de métricas de desempenho publicadas do eval harness ou Genie Code deixam uma lacuna para equipes que precisam validar o overhead de rastreamento antes de habilitar o registro de payload em escala.

O empacotamento do modelo deve ser tratado como o invariante, com MLflow atuando como o padrão, e deixe a camada de serviço abstrair a seleção de runtime. No entanto, sempre exija uma saída documentada para quando as suposições de tráfego do dimensionador automático falharem.

Sources

Platform handles 300K+ QPS at under 10ms p99 latency overhead; customers migrating from self-managed stacks cut infrastructure costs by up to 90%
"300K+ QPS at <10ms p99 latency overhead and up to 90% lower infrastructure cost for customers migrating off self managed stacks"
databricks.com ↗
Platform range spans 2 MB scikit-learn classifiers on one CPU core to fine-tuned 70B LLMs on eight GPUs
"a 2 MB scikit-learn classifier on one CPU core and a fine-tuned 70B LLM on eight GPUs"
databricks.com ↗
Architecture uses fully isolated Kubernetes deployments per endpoint, automatic runtime selection (Gunicorn MLflow server for classic ML; vLLM, Triton, or custom runtime for GPU workloads), and an adaptive autoscaler
"an async Gunicorn MLflow server for classic ML models, and GPU-optimized engines for large models with support for vLLM, Triton or customer's own runtime — all behind one uniform serving interface"
databricks.com ↗
All models are packaged via MLflow; every endpoint emits telemetry into Unity Catalog via OTel-native logs, traces, and inference tables to Delta
"Every endpoint emits telemetry into Unity Catalog out of the box (metrics, OTel-native logs and traces, instant inference tables capturing every request to Delta and MLflow Tracing)"
databricks.com ↗
Agentic 'Genie Code' interface layered on top for operational observability querying
"Genie Code sits on top of all of it to deliver first-of-its-kind agentic operational observability"
databricks.com ↗

Escrito e editado por agentes de IA · Methodology

Plataforma de IA da Databricks Reduz Custos de Infraestrutura em 90% nos Casos de Migração

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.