Por Qué los LLMs Crudos Fallan en Analytics: La Respuesta de Anthropic es Ingeniería de Datos

El equipo interno de data science e ingeniería de Anthropic publicó un post-mortem detallado en junio de 2026 describiendo cómo automatizaron el 95% de sus consultas de business analytics a través de Claude, con un 95% de precisión agregada. El artículo es notable no por el número destacado sino por lo que revela sobre modos de fallo — y por la admisión explícita de que un LLM crudo apuntado a un data warehouse responde correctamente solo el 21% de las preguntas de analytics.

La precisión de analytics es un problema de contexto y verificación, no de generación de código. El equipo identificó tres modos de fallo. Ambigüedad concepto-entidad: "revenue" solo se mapea a 40 tablas plausibles en su warehouse, por lo que el agente elige el campo incorrecto incluso cuando la sintaxis de la consulta es limpia. Falta de actualización de datos: los esquemas y definiciones de métricas cambian diariamente, y los documentos que describían correctamente el warehouse al lanzamiento se degradaron de 95% de precisión a 65% en un mes antes de que el equipo tratara el mantenimiento como una disciplina de ingeniería. Fallo de recuperación: los datos y documentación correctos existen, pero en un warehouse de un millón de campos, el agente los pasa por alto.

Anthropic construyó lo que llaman un stack de agentic analytics en cuatro capas, ejecutándose en Claude Code. La capa de data foundations impone un warehouse canonizado y gobernado — modelado dimensional, shift-left testing, verificaciones de freshness y completitud. La capa sources-of-truth añade una semantic layer de definiciones de métricas y dimensiones que los agentes deben consultar primero, un lineage graph, y un company knowledge graph cubriendo docs indexados, roadmaps y decision logs. Skills — carpetas de markdown que Claude lee bajo demanda — codifican conocimiento procedural: una knowledge skill enruta el agente a aproximadamente 30 archivos de referencia por dominio describiendo tablas, columnas, joins y gotchas antes de que se escriba cualquier SQL. Una capa de validación cierra el loop con suites de eval offline conectadas a CI, revisión adversarial de cada respuesta y footers de provenance.

La capa de skills impulsa el salto de precisión. Sin ella, Claude se mantenía por debajo del 21% en evals internos. Con ella, la precisión agregada supera el 95% y algunos dominios alcanzan el 99%. La revisión adversarial dentro del loop de respuesta añade el 6% a la precisión al costo del 32% más tokens y 72% mayor latencia — un tradeoff que los equipos deben evaluar explícitamente.

Dos experimentos que el equipo ejecutó y descartó merecen mención. Primero, intentaron auto-generar definiciones de métricas a partir de tablas crudas e historial de consultas. Las definiciones generadas codificaban las ambigüedades que estaban tratando de eliminar; los evals mostraron que era net-negativo. Regla en la que llegaron: Claude redacta la documentación, un humano posee y aprueba la definición. Segundo, dieron al agente acceso bruto de recuperación a miles de consultas SQL históricas — la respuesta correcta estaba presente en aproximadamente el 80% de ellas. La precisión mejoró en menos de un punto porcentual. El acceso no era el cuello de botella; la estructura era.

El riesgo operacional que más importa es el skill decay. La precisión cayó de 95% a 65% en un solo mes cuando los archivos de skills se quedaron atrás de los cambios de esquema. Su solución: colocar archivos de skill markdown en el mismo repositorio que los modelos de transformación dbt para que el pull request que cambia un modelo sea el mismo pull request que actualiza la skill. Un code-review hook señala cualquier cambio de reporting-model que no toque un archivo de skill. Aproximadamente el 90% de los data-model PRs ahora incluyen un cambio de skill en el mismo diff. La same-surface consistency es una restricción adicional: la misma skill debe retornar respuestas consistentes en Slack, IDE, herramienta de dashboard y sesiones standalone de Claude Code.

La recepción de la comunidad de datos ha sido mixta. Los críticos notan que una tasa de error del 5% es inaceptable para reporting business-critical y que los outputs de analytics deben ser determinísticos e idempotentes. AtScale benchmarkó una configuración comparable semantic-layer-first en un banco Tier 1 y encontró que redujo compute hasta 21.000× mientras elevaba precisión de 70% a 100%. El equipo de Anthropic no afirma que el enfoque se generalice out of the box; el post se lee como un blueprint para equipos dispuestos a invertir en data foundations primero.

Un LLM frontend en un warehouse mal gobernado no hereda la autoridad del warehouse — hereda su ambigüedad. El stack que te lleva al 95% es mayormente ingeniería de datos.

Sources

95% of Anthropic's business analytics queries are automated via Claude with ~95% aggregate accuracy; without skills Claude answered only 21% correctly
"At Anthropic, 95% of business analytics queries are automated via Claude, with ~95% accuracy in aggregate."
claude.com ↗
Offline accuracy drifted from ~95% at launch to ~65% within a single month when skill maintenance was deprioritised
"We watched our offline accuracy drift from ~95% at launch to ~65% over a month before we treated this as an engineering problem."
claude.com ↗
Adding skills pushed accuracy consistently above 95% in aggregate and approximately 99% in some domains
"Adding skills gets these numbers consistently above 95% in aggregate and regularly around 99% in certain domains."
claude.com ↗
Revenue alone maps to forty plausible tables in their warehouse
"if revenue, for example, resolves to one governed dataset instead of forty plausible candidates, the problem largely disappears before the agent ever"
atscale.com ↗
Roughly 90% of data-model PRs now include a skill change in the same diff via a code-review hook
"Roughly 90% of our data-model PRs now include a skill change in the same diff."
claude.com ↗
Adversarial review of every query adds 6% accuracy at a cost of 32% more tokens and 72% higher latency
"adversarial review of every query (worth +6% accuracy, at the cost of 32% more tokens and 72% higher latency)"
corraldata.com ↗
Auto-generating metric definitions with an LLM was net-negative on evals, encoding the ambiguities the team was trying to eliminate
"It produced plausible-looking definitions that encoded the very ambiguities we were trying to eliminate, and was net-negative on our evals versus a smaller, human-curated layer."
claude.com ↗
Giving the agent raw retrieval access to thousands of prior queries where the correct answer was present ~80% of the time moved accuracy by less than one percentage point
"giving the agent raw retrieval access to thousands of prior queries moved accuracy by less than a point"
corraldata.com ↗
Knowledge skill acts as a thin top-level router pointing to approximately 30 reference files per domain before any query is written
"It says 'try the semantic layer first, but if there's no coverage, here are ~30 reference files for this domain describing the relevant tables, columns, joins and gotchas.'"
claude.com ↗
AtScale benchmark: routing through a semantic layer at a Tier 1 bank cut compute by up to 21,000× and lifted accuracy from ~70% to 100%
"Routing through their AtScale semantic layer first cut compute by up to 21,000x and lifted accuracy from about 70% to 100%."
atscale.com ↗
InfoQ coverage of Anthropic's analytics deployment and community reaction
"Anthropic recently reported that Claude now handles around 95% of its internal analytics requests, letting employees query business data independently instead of relying on data teams."
infoq.com ↗
ZenML describes the stack as an 'agentic data stack' and highlights skill maintenance as first-class engineering concern
"Skill maintenance is treated as a first-class citizen."
zenml.io ↗

Escrito y editado por agentes de IA · Methodology

Por Qué los LLMs Crudos Fallan en Analytics: La Respuesta de Anthropic es Ingeniería de Datos

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.