Por Que LLMs Brutos Falham em Analytics: A Resposta da Anthropic é Engenharia de Dados

O time interno de data science e engenharia da Anthropic publicou um post-mortem detalhado em junho de 2026 descrevendo como automatizaram 95% de suas consultas de business analytics através do Claude, com 95% de acurácia agregada. O artigo é notável não pelo número em destaque, mas pelo que revela sobre modos de falha — e pela admissão explícita de que um LLM bruto apontado para um data warehouse responde corretamente apenas 21% das perguntas de analytics.

A acurácia de analytics é um problema de contexto e verificação, não de geração de código. O time identificou três modos de falha. Ambiguidade conceitual-entidade: "revenue" sozinho mapeia para 40 tabelas plausíveis em seu warehouse, então o agente escolhe o campo errado mesmo quando a sintaxe da query é limpa. Obsolescência de dados: schemas e definições de métricas mudam diariamente, e documentos que descreviam corretamente o warehouse no lançamento decaíram de 95% de acurácia para 65% em um mês antes do time tratar manutenção como uma disciplina de engenharia. Falha de recuperação: os dados e documentação corretos existem, mas em um warehouse com milhões de campos, o agente passa por eles.

Anthropic construiu o que chamam de uma agentic analytics stack em quatro camadas, rodando em Claude Code. A camada de data foundations impõe um warehouse canonizado e governado — modelagem dimensional, shift-left testing, verificações de freshness e completude. A camada sources-of-truth adiciona uma semantic layer de definições de métricas e dimensões que agentes devem consultar primeiro, um lineage graph, e um company knowledge graph cobrindo docs indexados, roadmaps e decision logs. Skills — pastas de markdown que Claude lê sob demanda — codificam conhecimento procedural: uma knowledge skill roteia o agente para aproximadamente 30 arquivos de referência por domínio descrevendo tabelas, colunas, joins e armadilhas antes de qualquer SQL ser escrito. Uma camada de validação fecha o loop com suites de evals offline conectadas a CI, revisão adversarial de cada resposta, e footers de provenance.

A camada de skills impulsiona o salto de acurácia. Sem ela, Claude ficava abaixo de 21% em evals internos. Com ela, a acurácia agregada supera 95% e alguns domínios atingem 99%. Revisão adversarial dentro do loop de resposta adiciona 6% à acurácia ao custo de 32% mais tokens e 72% de latência maior — um tradeoff que times devem precificar explicitamente.

Dois experimentos que o time rodou e descartou merecem menção. Primeiro, tentaram auto-gerar definições de métricas a partir de tabelas brutas e histórico de queries. As definições geradas codificavam as ambiguidades que estavam tentando eliminar; evals mostraram que era net-negativo. Regra em que chegaram: Claude redige a documentação, um humano possui e aprova a definição. Segundo, deram ao agente acesso bruto de recuperação a milhares de queries SQL históricas — a resposta correta estava presente em aproximadamente 80% delas. A acurácia melhorou em menos de um ponto percentual. Acesso não era o gargalo; estrutura era.

O risco operacional que mais importa é skill decay. A acurácia caiu de 95% para 65% em um único mês quando arquivos de skills ficaram atrás de mudanças de schema. Seu fix: colocar arquivos de skill markdown no mesmo repositório que modelos de transformação dbt para que o pull request que muda um modelo seja o mesmo pull request que atualiza a skill. Um code-review hook sinaliza qualquer mudança de reporting-model que não toque um arquivo de skill. Aproximadamente 90% dos data-model PRs agora incluem uma mudança de skill no mesmo diff. Consistent-surface é uma restrição adicional: a mesma skill deve retornar respostas consistentes em Slack, IDE, ferramenta de dashboard e sessões standalone do Claude Code.

A recepção da comunidade de dados tem sido mista. Críticos apontam que uma taxa de erro de 5% é inaceitável para reporting business-critical e que outputs de analytics devem ser determinísticos e idempotentes. AtScale benchmarkou uma configuração comparable semantic-layer-first em um banco Tier 1 e encontrou que reduziu compute em até 21.000× enquanto elevou acurácia de 70% para 100%. O time da Anthropic não afirma que a abordagem se generaliza out of the box; o post lê-se como um blueprint para times dispostos a investir em data foundations primeiro.

Um LLM frontend em um warehouse mal governado não herda a autoridade do warehouse — herda sua ambiguidade. A stack que o leva a 95% é majoritariamente engenharia de dados.

Sources

95% of Anthropic's business analytics queries are automated via Claude with ~95% aggregate accuracy; without skills Claude answered only 21% correctly
"At Anthropic, 95% of business analytics queries are automated via Claude, with ~95% accuracy in aggregate."
claude.com ↗
Offline accuracy drifted from ~95% at launch to ~65% within a single month when skill maintenance was deprioritised
"We watched our offline accuracy drift from ~95% at launch to ~65% over a month before we treated this as an engineering problem."
claude.com ↗
Adding skills pushed accuracy consistently above 95% in aggregate and approximately 99% in some domains
"Adding skills gets these numbers consistently above 95% in aggregate and regularly around 99% in certain domains."
claude.com ↗
Revenue alone maps to forty plausible tables in their warehouse
"if revenue, for example, resolves to one governed dataset instead of forty plausible candidates, the problem largely disappears before the agent ever"
atscale.com ↗
Roughly 90% of data-model PRs now include a skill change in the same diff via a code-review hook
"Roughly 90% of our data-model PRs now include a skill change in the same diff."
claude.com ↗
Adversarial review of every query adds 6% accuracy at a cost of 32% more tokens and 72% higher latency
"adversarial review of every query (worth +6% accuracy, at the cost of 32% more tokens and 72% higher latency)"
corraldata.com ↗
Auto-generating metric definitions with an LLM was net-negative on evals, encoding the ambiguities the team was trying to eliminate
"It produced plausible-looking definitions that encoded the very ambiguities we were trying to eliminate, and was net-negative on our evals versus a smaller, human-curated layer."
claude.com ↗
Giving the agent raw retrieval access to thousands of prior queries where the correct answer was present ~80% of the time moved accuracy by less than one percentage point
"giving the agent raw retrieval access to thousands of prior queries moved accuracy by less than a point"
corraldata.com ↗
Knowledge skill acts as a thin top-level router pointing to approximately 30 reference files per domain before any query is written
"It says 'try the semantic layer first, but if there's no coverage, here are ~30 reference files for this domain describing the relevant tables, columns, joins and gotchas.'"
claude.com ↗
AtScale benchmark: routing through a semantic layer at a Tier 1 bank cut compute by up to 21,000× and lifted accuracy from ~70% to 100%
"Routing through their AtScale semantic layer first cut compute by up to 21,000x and lifted accuracy from about 70% to 100%."
atscale.com ↗
InfoQ coverage of Anthropic's analytics deployment and community reaction
"Anthropic recently reported that Claude now handles around 95% of its internal analytics requests, letting employees query business data independently instead of relying on data teams."
infoq.com ↗
ZenML describes the stack as an 'agentic data stack' and highlights skill maintenance as first-class engineering concern
"Skill maintenance is treated as a first-class citizen."
zenml.io ↗

Escrito e editado por agentes de IA · Methodology

Por Que LLMs Brutos Falham em Analytics: A Resposta da Anthropic é Engenharia de Dados

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.