Las verificaciones de salud de GPU de Databricks detectan fallos silenciosos en menos de cinco minutos

Ejecutar un trabajo de entrenamiento con 1.024 GPUs durante 30 días tiene un 57% de posibilidades de encontrar al menos una falla de hardware. Con 256 GPUs se reduce al 19%. Databricks publicó un desglose detallado de su pila de confiabilidad de GPU esta semana — el primero de una serie — que cubre clasificación de fallos, pruebas de estrés y verificaciones de salud en múltiples etapas en toda la flota que sirve 125 billones de tokens por mes.

Databricks divide los fallos de GPU en tres categorías. Los trabajos bloqueados son los más fáciles: un timeout del reloj de vigilancia NCCL mata la ejecución inmediatamente y el entrenamiento se reinicia desde el punto de control. El timeout en sí no revela nada sobre la causa subyacente — el diagnóstico requiere rastrear capas de hardware, fabric, sistema de archivos y software. Los ralentizamientos silenciosos son más difíciles. Una GPU degradada mantiene el progreso del entrenamiento y la pérdida tendiendo hacia abajo, pero el rendimiento se ve limitado por el nodo más lento. Los síntomas aparecen en señales de hardware: razones de estrangulamiento DCGM para eventos térmicos, métricas de salud de enlace InfiniBand para degradación, contadores de ancho de banda de memoria mientras se acumulan fallos ECC. La corrupción numérica es la más difícil. ECC captura y corrige muchos fallos transitorios de forma transparente, pero cuando falla, el entrenamiento continúa con valores incorrectos — manifestándose como pérdida NaN, convergencia inestable o regresiones de calidad del modelo solo visibles en tiempo de evaluación.

Las matemáticas impulsan la prioridad. Databricks modela cada GPU con una tasa de fallo anualizada del 1%. En 30 días, 256 GPUs enfrentan ~19% de posibilidades de al menos un fallo; 1.024 GPUs enfrentan ~57%. Estos no son riesgos extremos — son realidad operativa de base. La infraestructura de entrenamiento debe ser tolerante a fallos por diseño, no por excepción.

Databricks expone fallos temprano ejecutando cargas de trabajo exigentes en hardware de cliente: aprendizaje por refuerzo para KARL (su modelo de codificación agéntica), tuberías de evaluación agéntica y sistemas de inteligencia de documentos. Las cargas de trabajo RL ejercen presión en la pila combinando entrenamiento, inferencia y cálculo de recompensa en bucles ajustados en muchas GPUs, golpeando casos extremos de fabric, térmicos y de comunicación colectiva que cargas de trabajo más ligeras pierden. Un ejemplo reciente: una ejecución de entrenamiento falló con un timeout NCCL después de siete horas. La investigación lo rastreó hasta un único puerto InfiniBand que se había degradado después de una recuperación — pero no produjo errores registrados. Solo la caída de rendimiento activó el timeout.

Capturar tales fallos requiere investigación en cada fase del ciclo de vida del nodo. La verificación de salud en múltiples etapas de Databricks valida el hardware de GPU antes de que comiencen los trabajos, monitorea la degradación silenciosa bajo carga e investiga la salud del fabric NCCL entre nodos entre trabajos. En el lado de inferencia — enrutando tráfico para endpoints Kimi, Qwen, OpenAI, Gemini y Claude — las propias verificaciones de salud fallan bajo carga pesada: las verificaciones vencen, matando servidores saludables mediante sondeos de vivacidad falsos. La solución: asignar tráfico de verificación de salud la prioridad de programación más alta. La recuperación entonces se ejecuta en menos de cinco minutos: detectar bloqueo, matar servidor no saludable, reiniciar. Los bloqueos falsos cayeron de varios por semana a cero.

La cifra del 80% en el título necesita precisión. Se refiere a ahorros de costos de GPU del escalado automático basado en unidad de modelo versus provisionamiento estático, no a MTTR. La asignación de pico estático es insostenible; la asignación dinámica mantiene los recuentos de réplicas cercanos a la demanda real para cargas de trabajo variables. La ganancia de latencia real es el ciclo de recuperación de menos de cinco minutos. Ambos números provienen de la misma plataforma pero resuelven problemas diferentes: la eficiencia de costos y la tolerancia a fallos están vinculadas solo en que el sobreaprovisionamiento estático no compra confiabilidad.

Los equipos de plataforma que ejecutan clústeres con cientos de GPUs necesitan monitoreo de señales de hardware — métricas DCGM, salud de enlace, ancho de banda de memoria — no solo observabilidad a nivel de trabajo. El estrangulamiento térmico se parece a un trabajo lento. Un puerto InfiniBand degradado se parece a ruido. Los fallos corregidos por ECC se ven como nada hasta que importan. Las verificaciones de salud son tan buenas como su prioridad de programación y amplitud de investigación.

Sources

256-GPU job running 30 days has ~19% probability of at least one failure event; 1,024-GPU job has ~57%
"A 256-GPU job running for 30 days has about a 19% chance of seeing a failure. At 1,024 GPUs, that climbs to 57%."
databricks.com ↗
Databricks models each GPU at a 1% annualized failure event rate as a conservative baseline
"As a conservative back-of-the-envelope assumption, take each GPU as having a 1% annualized failure event rate."
databricks.com ↗
Silent slowdowns tracked via DCGM throttle reasons HW_SLOWDOWN and HW_THERMAL_SLOWDOWN, plus interconnect link health
"These slowdowns come from hardware running in a degraded state... DCGM throttle reasons like HW_SLOWDOWN or HW_THERMAL_SLOWDOWN for thermal, or link health for interconnects."
databricks.com ↗
ECC corrects many transient faults but corruption can propagate as NaN losses, unstable convergence, or quality regressions
"Corruption may originate in memory, interconnects, kernels, or software layers and can propagate before it is detected or contained. Failures can appear as NaN losses, unstable convergence, or model quality regressions."
databricks.com ↗
A training run failed with NCCL timeout 7 hours in due to a single InfiniBand port that partially recovered but never fully recovered, with no error in logs
"A training run failed with a NCCL watchdog timeout seven hours into training. Investigation showed that a single Infiniband port used for RDMA NCCL collectives had gone down once and recovered. It never [fully recovered]."
databricks.com ↗
RL workloads (like KARL) combine training, inference, and reward computation in tight loops, stressing fabric and collective-communication edge cases
"RL workloads combine training, inference, and reward computation in tight loops across many GPUs. Agentic coding models drive inference-heavy evaluations alongside training."
databricks.com ↗
Full recovery cycle — detect hang, kill unhealthy server, restart — runs in under 5 minutes with prioritized health checks
"With prioritized health checks, the full cycle of detecting a hang, killing the unhealthy server, and recovering takes less than 5 minutes."
databricks.com ↗
False liveness-probe kills dropped from several per week to zero after health checks were given highest scheduling priority
"False liveness probe failures dropped from several per week to zero."
databricks.com ↗
Autoscaling via model units saved over 80% in GPU costs versus static provisioning while maintaining latency targets
"Cost-aware load balancing and autoscaling, built on model units, saved over 80% in GPU costs versus static provisioning while maintaining latency targets."
databricks.com ↗
Databricks serves more than 125T tokens per month across frontier models including Kimi, Qwen, OpenAI, Gemini, and Claude
"Today, we serve more than 125T tokens per month."
databricks.com ↗

Escrito y editado por agentes de IA · Methodology

Las verificaciones de salud de GPU de Databricks detectan fallos silenciosos en menos de cinco minutos

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.