Discord reduz tempo de provisionamento de cluster shadow em 94% com SCP

Discord's Persistence Infrastructure team manages 20-plus ScyllaDB clusters across roughly 500 nodes, storing messages, channels, and server data for hundreds of millions of users. A equipe anterior operava esse footprint usando scripts Python e shell que exigiam conhecimento institucional profundo e supervisão constante. Scylla Control Plane (SCP), um framework de orquestração interno, substitui scripts ad hoc por workflows declarativos e resumíveis. Provisionamento de shadow cluster — uma réplica de produção completa usada para validar upgrades de ScyllaDB antes do deployment — caiu de um dia e meio de atenção ativa de engenheiro para menos de duas horas sem supervisão. Isso representa uma redução de 94% nessa operação — um cálculo editorial baseado em referências informais de tempo do Discord, não um número publicado pelo Discord.

SCP é construído em torno de três primitivas: tasks (operações idempotentes), workflows (sequências definidas em YAML) e jobs (contextos de execução resumíveis com estado persistido em SQLite). Ele aborda três modos de falha da abordagem anterior: ordenação insegura de execução, incapacidade de retomar após interrupções e fragilidade ao estender automação para novos cenários. Cada task define pré-condições explícitas. Antes de drenar um node, a CLI scyllactl verifica segurança de quórum e saúde do cluster — verificações embutidas na definição de task que rodam toda vez.

Clusters distribuídos multi-AZ exigem mais que guards em nível de task. SCP força controles de concorrência configuráveis em nível de workflow. Engenheiros podem expressar regras como "nunca reiniciar nodes em múltiplas zonas de disponibilidade simultaneamente" diretamente em YAML. Batching com consciência de zona, gates de pré-condição por step, alerting dirigido por webhook e retries automáticos com classificação de erro estão embutidos no framework em vez de deixados para runbooks individuais.

Uma operação de shadow cluster mostra a melhoria. Anteriormente, provisionar dezenas de nodes, juntá-los um de cada vez, validar replicação, configurar pipelines dual-write e supervisionar cada step manualmente levava mais de um dia de tempo de engenheiro. Erros no step 9 significavam recomeçar do zero. Com SCP, a mesma sequência roda sem supervisão em menos de duas horas.

O framework agora automatiza rolling OS upgrades em centenas de nodes, expansão de cluster, recuperação de node, binary cycling, mudanças de scylla.yaml, sinais SIGHUP e limpeza de repair. Garantias de idempotência significam que jobs interrompidos podem ser retentados com segurança sem corromper estado de cluster ou duplicar ações — impossível com a abordagem anterior dirigida por scripts.

Nenhuma métrica de latência, custo-por-operação ou throughput para SCP foi divulgada. O time enquadrou o benefício primariamente como redução de carga cognitiva: engenheiros não mais supervisionam procedimentos de manutenção de execução longa step a step. Além de provisionamento de shadow cluster, nenhuma métrica operacional de overhead mais ampla (melhoria percentual em todas as operações, horas de engenheiro agregadas economizadas ou taxa de redução de incidentes) foi publicada.

SCP ainda não está finalizado. Gestão de ciclo de vida de shadow cluster totalmente automatizada e estratégias de expansão mais inteligentes estão listadas como próximos investimentos. Algumas operações multi-phase ainda exigem checkpoints humanos.

O padrão transferível: codificar regras de segurança operacional — verificações de quórum, restrições de isolamento de AZ, requisitos de idempotência — diretamente em definições de workflow em vez de confiar em disciplina de runbook. SQLite para persistência local de job-state fornece resumibilidade sem adicionar uma dependência de coordenação.

Sources

Discord manages over 20 ScyllaDB clusters consisting of almost 500 nodes
"At Discord, our small team operates over 20 ScyllaDB clusters consisting of almost 500 nodes."
scylladb.com ↗
Old tooling consisted of fragile Python and shell scripts requiring deep institutional knowledge
"Historically, these operations relied on fragile Python and shell scripts that required deep institutional knowledge and constant manual supervision."
infoq.com ↗
SCP is built around reusable tasks, workflows, and resumable jobs with state persisted in SQLite
"SCP introduces explicit preconditions, state persistence through SQLite, error classification, webhook-driven alerting, and configurable parallelism"
infoq.com ↗
scyllactl automatically verifies quorum safety and cluster health before draining a node, as part of the task definition
"Before the drain runs, SCP automatically checks that the node is quorum-safe (i.e. there are enough nodes available to serve accurate requests) and that the cluster is healthy. These checks aren't optional — they're part of the task definition and run every time, regardless of who invokes the operation."
discord.com ↗
SCP enforces concurrency controls such as 'never restart nodes across multiple availability zones simultaneously'
"SCP uses configurable concurrency controls that allow engineers to define rules such as 'never restart nodes across multiple availability zones simultaneously,' protecting cluster quorum and availability during maintenance operations."
infoq.com ↗
Shadow cluster provisioning dropped from a day and a half of engineer attention to under two hours running largely unattended
"You're looking at the next day and a half... what if this whole ordeal took less than two hours?"
discord.com ↗
Shadow clusters are full production replicas that receive live reads and writes to validate upgrades before touching production
"One such tool is our shadow clusters: a short-lived, full replica cluster that receives, reads, and writes the same data as our production traffic. If the shadow cluster misbehaves under real load, we catch it before it touches production data."
discord.com ↗
Automated operations include rolling OS upgrades, cluster expansion, node recovery, binary cycling, scylla.yaml changes, SIGHUP, and cleanups
"Since shipping SCP, we've automated many of the operations that used to require the most careful hand-holding, such as: ... Other common remediations, such as cycling binaries, applying scylla.yaml changes, sending SIGHUP, and running cleanups"
discord.com ↗
Workflow orchestration logic uses zone-aware batching, per-step precondition checks, webhook notifications, and retries
"The orchestration logic is non-trivial —zone-aware batching, per-step precondition checks, webhook notifications, retries upon failures — but in SCP, that logic lives in the workflow YAML and uses the individual tasks as composable primitives to execute operations."
discord.com ↗
Fully automated shadow cluster lifecycle management and smarter expansion strategies are listed as next investments
"SCP isn't done: we're still building a foundation for fully automating shadow cluster lifecycles and smarter expansion strategies, but every new workflow we add makes the next operation a little less manual."
discord.com ↗
Presenters are Senior Software Engineers Ethan Donowitz and Peter French from Discord's Persistence Infrastructure team
"Peter French, Senior Software Engineer, Discord... Ethan Donowitz, Senior Software Engineer, Discord"
scylladb.com ↗

Escrito e editado por agentes de IA · Methodology

Discord reduz tempo de provisionamento de cluster shadow em 94% com SCP

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.