Town Lake da Cloudflare Resolve Gargalo de Carga de Faturamento

A plataforma de dados interna da Cloudflare, Town Lake, registrou 91.760 consultas relacionadas a faturamento de 324 funcionários em uma única janela de medição — 53% de todo o tráfego da plataforma. A descoberta de um post de engenharia de maio de 2026 por Brian Brunner, Dmitry Alexeenko e Matt Moen reformula o que significa "infraestrutura de observabilidade" em escala: a atribuição de custos é a carga de trabalho dominante, não logs ou traces.

Uma década de proliferação de dados impulsionou o problema. Em uma empresa processando mais de um bilhão de eventos por segundo, um engenheiro investigando um problema de cliente precisava de Postgres para metadados de conta, ClickHouse para eventos de análise, BigQuery para rollups de uso, R2 para logs brutos e Kafka para sinais em tempo real. Cada sistema exigia credenciais separadas, linguagem de consulta e política de retenção. O pipeline de análise fazia downsampling de 700M+ eventos por segundo — aceitável para latência de dashboard, catastrófico para faturamento, onde contagens exatas são necessárias, não aproximações.

Town Lake usa uma stack lakehouse: Apache Trino como mecanismo de consulta, Apache Iceberg em R2 para armazenamento e DataHub para catálogo de metadados. Uma única consulta Trino une uma tabela Postgres, tabela ClickHouse e tabela Iceberg em R2 sem materializar resultados intermediários. O exemplo do post: "top 100 clientes pagadores por requisições Workers esta semana" compila em um plano que empurra filtros para ClickHouse, une a dimensão de conta em Postgres e classifica contra rollups de faturamento em R2 — tudo em uma execução. Iceberg trata evolução de schema, time travel e compactação de partição; linhas por minuto envelhecem para horária, depois diária, com Parquet em R2 substancialmente mais barato que armazenamento OLAP.

O modelo de governança é fechado por padrão. Todo novo dataset integrado permanece inacessível até que dois processos sejam concluídos: Skimmer (um scanner PII contínuo construído em Workers AI) executa classificação de coluna de dois passos e revisores humanos validam ou substituem antes da abertura de acesso. Lifeguard armazena regras de acesso em D1, puxa membros de grupo de identidade interna e renderiza uma política JSON que Trino lê via HTTP. Usuários bloqueados encontram a porta de entrada, não o tempo de consulta — uma distinção crítica quando consultas tocam tabelas de faturamento com PII misturado. Uma nova coluna não revisada permanece oculta de DESCRIBE e SHOW COLUMNS sem quebrar dashboards existentes no resto de uma tabela aprovada.

Skipper, um agente IA construído na própria stack da Cloudflare (Workers, Workers AI, Durable Objects, D1, R2, Workflows, KV), funciona sobre Town Lake. Atualmente roteando através de Anthropic Claude via Claude Managed Agents, a arquitetura é agnóstica de modelo. Skipper usa cinco camadas de contexto para reduzir alucinações: metadados de schema e uso de DataHub, anotações humanas, lógica de transformação SQL e linhagem de definições Transformer ELT, documentos de modelo de dados curados e consultas de introspecção ao vivo. Rollups SQL de receita legados de 200–300 linhas agora têm cinco linhas. "Top 100 clientes por receita" é executado em aproximadamente três segundos.

Três lições emergem do post de engenharia. Prompts mais simples melhoraram a precisão sobre prompts elaborados. Consolidar ferramentas sobrepostas reduziu seleção incorreta de ferramentas. Injetar lógica de transformação SQL e linhagem de dados no contexto do agente — não apenas metadados de schema — permitiu ao agente entender semântica de negócios. A infraestrutura IA interna servindo 3.683 usuários processou 241 bilhões de tokens através de AI Gateway; sinais operacionais estão ao vivo, não são teóricos.

Conclusão do arquiteto: se você está construindo uma plataforma de análise multi-tenant onde a precisão de faturamento é um requisito, as restrições de governança e fidelidade para atribuição de custos definirão sua arquitetura de consulta — não seus casos de uso de observabilidade.

Sources

Billing workloads account for 53% of all Town Lake queries: 91,760 queries from 324 distinct employees in a measured period
"Billing-related queries account for 53% of all queries Town Lake serves: 91,760 queries from 324 distinct Cloudflare employees in a recent measurement period."
blog.cloudflare.com ↗
Legacy 200–300 line SQL revenue rollup queries reduced to 5 lines after Town Lake
"The 200–300 line legacy SQL queries that used to compute revenue rollups by customer are now five lines."
blog.cloudflare.com ↗
Cloudflare processes more than one billion events per second across 330+ cities in 120+ countries
"Cloudflare processes more than a billion events every second. Our network spans 330+ cities in 120+ countries."
blog.cloudflare.com ↗
Analytics pipeline downsamples 700M+ events per second, unsuitable for billing which requires exact counts
"Our analytics pipeline downsamples to handle 700M+ events per second. That is the right behavior when you want an analytics dashboard to load, but it's exactly the wrong behavior when you are trying to compute someone's usage required to issue an invoice."
blog.cloudflare.com ↗
Town Lake uses Apache Trino to join Postgres, ClickHouse, and Iceberg tables on R2 in a single query without materializing intermediate results
"a single SQL query can join a Postgres table, a ClickHouse table, and an Iceberg table on R2 without a need to materialize the intermediate results into a different system."
blog.cloudflare.com ↗
Skimmer performs two-pass PII detection using Workers AI; Lifeguard stores access rules in D1 and renders a JSON policy Trino reads over HTTP
"Lifeguard also feeds basic access information to Skipper and the Gateway, so users get blocked at the front door rather than at query time."
blog.cloudflare.com ↗
Skipper is built on Cloudflare's own stack: Workers, Workers AI, Durable Objects, D1, R2, Workflows, KV; routes through Anthropic Claude models via Claude Managed Agents
"We built it on top of Town Lake and on top of our developer platform: Workers, Workers AI, Durable Objects, D1, R2, Workflows, KV."
blog.cloudflare.com ↗
Skipper employs five context layers including schema metadata, human annotations, SQL transformation lineage, curated data models, and live introspection
"Skipper finds the right tables (DataHub search), pulls their schemas and lineage, writes the SQL, submits it to Trino, polls for results, and shows you a table or a chart."
blog.cloudflare.com ↗
Cloudflare's internal AI infrastructure serves 3,683 users and has processed 241 billion tokens through AI Gateway
"20 million requests routed through AI Gateway, 241 billion tokens processed, and inference running on Workers AI, serving more than 3,683 internal users."
blog.cloudflare.com ↗
Simplifying AI agent prompts improved accuracy; consolidating overlapping tools reduced incorrect selections
"The company also reported that simplifying AI agent prompts improved accuracy, while consolidating overlapping tools reduced incorrect selections."
infoq.com ↗
Town Lake offers 'fast' downsampled data for dashboards and 'accurate' unsampled data for billing and security investigations
"It offers 'fast' downsampled data streams used primarily for rapid dashboard rendering, alongside 'accurate' unsampled data reserved for critical operations like billing pipelines and deep security investigations."
getaibook.com ↗

Escrito e editado por agentes de IA · Methodology

Town Lake da Cloudflare Resolve Gargalo de Carga de Faturamento

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.