Town Lake de Cloudflare Resuelve el Cuello de Botella de Carga de Facturación

La plataforma de datos interna de Cloudflare, Town Lake, registró 91.760 consultas relacionadas con facturación de 324 empleados en una única ventana de medición — 53% de todo el tráfico de la plataforma. El hallazgo de un post de ingeniería de mayo de 2026 por Brian Brunner, Dmitry Alexeenko y Matt Moen redefine qué significa "infraestrutura de observabilidad" a escala: la atribución de costos es la carga de trabajo dominante, no logs o traces.

Una década de proliferación de datos impulsó el problema. En una empresa que procesa más de mil millones de eventos por segundo, un ingeniero investigando un problema de cliente necesitaba Postgres para metadatos de cuenta, ClickHouse para eventos de análisis, BigQuery para agregaciones de uso, R2 para logs crudos y Kafka para señales en tiempo real. Cada sistema requería credenciales separadas, lenguaje de consulta y política de retención. El pipeline de análisis hizo downsampling de 700M+ eventos por segundo — aceptable para latencia de dashboard, catastrófico para facturación, donde se requieren conteos exactos, no aproximaciones.

Town Lake utiliza un stack lakehouse: Apache Trino como motor de consultas, Apache Iceberg en R2 para almacenamiento y DataHub para catálogo de metadatos. Una única consulta Trino une una tabla Postgres, tabla ClickHouse y tabla Iceberg en R2 sin materializar resultados intermedios. El ejemplo del post: "top 100 clientes pagadores por solicitudes de Workers esta semana" se compila en un plan que empuja filtros a ClickHouse, une la dimensión de cuenta en Postgres y clasifica contra agregaciones de facturación en R2 — todo en una ejecución. Iceberg maneja evolución de esquema, time travel y compactación de particiones; las filas por minuto envejecen a cada hora, luego diariamente, con Parquet en R2 sustancialmente más económico que almacenamiento OLAP.

El modelo de gobernanza está cerrado por defecto. Todo dataset recién incorporado permanece inaccesible hasta que se completen dos procesos: Skimmer (un scanner de PII continuo construido en Workers AI) ejecuta clasificación de columnas de dos pasos y revisores humanos validan u anulan antes de que se abra el acceso. Lifeguard almacena reglas de acceso en D1, obtiene membresía de grupos de identidad interna y renderiza una política JSON que Trino lee sobre HTTP. Los usuarios bloqueados llegan a la puerta principal, no al tiempo de consulta — una distinción crítica cuando las consultas tocan tablas de facturación con PII mezclado. Una nueva columna no revisada permanece oculta de DESCRIBE y SHOW COLUMNS sin romper dashboards existentes en el resto de una tabla aprobada.

Skipper, un agente IA construido en el propio stack de Cloudflare (Workers, Workers AI, Durable Objects, D1, R2, Workflows, KV), se ejecuta sobre Town Lake. Actualmente enrutando a través de Anthropic Claude vía Claude Managed Agents, la arquitectura es agnóstica de modelo. Skipper utiliza cinco capas de contexto para reducir alucinaciones: metadatos de esquema y uso de DataHub, anotaciones humanas, lógica de transformación SQL y linaje de definiciones Transformer ELT, documentos de modelo de datos curados e consultas de introspección en vivo. Los rollups SQL de ingresos heredados de 200–300 líneas ahora tienen cinco líneas. "Top 100 clientes por ingresos" se ejecuta en aproximadamente tres segundos.

Tres lecciones emergen del post de ingeniería. Los prompts más simples mejoraron la precisión sobre los prompts elaborados. Consolidar herramientas superpuestas redujo la selección incorrecta de herramientas. Inyectar lógica de transformación SQL y linaje de datos en el contexto del agente — no solo metadatos de esquema — permitió al agente comprender semántica empresarial. La infraestrutura de IA interna que atiende a 3.683 usuarios ha procesado 241 mil millones de tokens a través de AI Gateway; las señales operacionales están en vivo, no son teóricas.

Conclusión del arquitecto: si estás construyendo una plataforma de análisis multi-tenant donde la precisión de facturación es un requisito, las restricciones de gobernanza y fidelidad para atribución de costos definirán tu arquitectura de consultas — no tus casos de uso de observabilidad.

Sources

Billing workloads account for 53% of all Town Lake queries: 91,760 queries from 324 distinct employees in a measured period
"Billing-related queries account for 53% of all queries Town Lake serves: 91,760 queries from 324 distinct Cloudflare employees in a recent measurement period."
blog.cloudflare.com ↗
Legacy 200–300 line SQL revenue rollup queries reduced to 5 lines after Town Lake
"The 200–300 line legacy SQL queries that used to compute revenue rollups by customer are now five lines."
blog.cloudflare.com ↗
Cloudflare processes more than one billion events per second across 330+ cities in 120+ countries
"Cloudflare processes more than a billion events every second. Our network spans 330+ cities in 120+ countries."
blog.cloudflare.com ↗
Analytics pipeline downsamples 700M+ events per second, unsuitable for billing which requires exact counts
"Our analytics pipeline downsamples to handle 700M+ events per second. That is the right behavior when you want an analytics dashboard to load, but it's exactly the wrong behavior when you are trying to compute someone's usage required to issue an invoice."
blog.cloudflare.com ↗
Town Lake uses Apache Trino to join Postgres, ClickHouse, and Iceberg tables on R2 in a single query without materializing intermediate results
"a single SQL query can join a Postgres table, a ClickHouse table, and an Iceberg table on R2 without a need to materialize the intermediate results into a different system."
blog.cloudflare.com ↗
Skimmer performs two-pass PII detection using Workers AI; Lifeguard stores access rules in D1 and renders a JSON policy Trino reads over HTTP
"Lifeguard also feeds basic access information to Skipper and the Gateway, so users get blocked at the front door rather than at query time."
blog.cloudflare.com ↗
Skipper is built on Cloudflare's own stack: Workers, Workers AI, Durable Objects, D1, R2, Workflows, KV; routes through Anthropic Claude models via Claude Managed Agents
"We built it on top of Town Lake and on top of our developer platform: Workers, Workers AI, Durable Objects, D1, R2, Workflows, KV."
blog.cloudflare.com ↗
Skipper employs five context layers including schema metadata, human annotations, SQL transformation lineage, curated data models, and live introspection
"Skipper finds the right tables (DataHub search), pulls their schemas and lineage, writes the SQL, submits it to Trino, polls for results, and shows you a table or a chart."
blog.cloudflare.com ↗
Cloudflare's internal AI infrastructure serves 3,683 users and has processed 241 billion tokens through AI Gateway
"20 million requests routed through AI Gateway, 241 billion tokens processed, and inference running on Workers AI, serving more than 3,683 internal users."
blog.cloudflare.com ↗
Simplifying AI agent prompts improved accuracy; consolidating overlapping tools reduced incorrect selections
"The company also reported that simplifying AI agent prompts improved accuracy, while consolidating overlapping tools reduced incorrect selections."
infoq.com ↗
Town Lake offers 'fast' downsampled data for dashboards and 'accurate' unsampled data for billing and security investigations
"It offers 'fast' downsampled data streams used primarily for rapid dashboard rendering, alongside 'accurate' unsampled data reserved for critical operations like billing pipelines and deep security investigations."
getaibook.com ↗

Escrito y editado por agentes de IA · Methodology

Town Lake de Cloudflare Resuelve el Cuello de Botella de Carga de Facturación

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.