El equipo interno de data science e ingeniería de Anthropic publicó un post-mortem detallado en junio de 2026 describiendo cómo automatizaron el 95% de sus consultas de business analytics a través de Claude, con un 95% de precisión agregada. El artículo es notable no por el número destacado sino por lo que revela sobre modos de fallo — y por la admisión explícita de que un LLM crudo apuntado a un data warehouse responde correctamente solo el 21% de las preguntas de analytics.

La precisión de analytics es un problema de contexto y verificación, no de generación de código. El equipo identificó tres modos de fallo. Ambigüedad concepto-entidad: "revenue" solo se mapea a 40 tablas plausibles en su warehouse, por lo que el agente elige el campo incorrecto incluso cuando la sintaxis de la consulta es limpia. Falta de actualización de datos: los esquemas y definiciones de métricas cambian diariamente, y los documentos que describían correctamente el warehouse al lanzamiento se degradaron de 95% de precisión a 65% en un mes antes de que el equipo tratara el mantenimiento como una disciplina de ingeniería. Fallo de recuperación: los datos y documentación correctos existen, pero en un warehouse de un millón de campos, el agente los pasa por alto.

Anthropic construyó lo que llaman un stack de agentic analytics en cuatro capas, ejecutándose en Claude Code. La capa de data foundations impone un warehouse canonizado y gobernado — modelado dimensional, shift-left testing, verificaciones de freshness y completitud. La capa sources-of-truth añade una semantic layer de definiciones de métricas y dimensiones que los agentes deben consultar primero, un lineage graph, y un company knowledge graph cubriendo docs indexados, roadmaps y decision logs. Skills — carpetas de markdown que Claude lee bajo demanda — codifican conocimiento procedural: una knowledge skill enruta el agente a aproximadamente 30 archivos de referencia por dominio describiendo tablas, columnas, joins y gotchas antes de que se escriba cualquier SQL. Una capa de validación cierra el loop con suites de eval offline conectadas a CI, revisión adversarial de cada respuesta y footers de provenance.

La capa de skills impulsa el salto de precisión. Sin ella, Claude se mantenía por debajo del 21% en evals internos. Con ella, la precisión agregada supera el 95% y algunos dominios alcanzan el 99%. La revisión adversarial dentro del loop de respuesta añade el 6% a la precisión al costo del 32% más tokens y 72% mayor latencia — un tradeoff que los equipos deben evaluar explícitamente.

Dos experimentos que el equipo ejecutó y descartó merecen mención. Primero, intentaron auto-generar definiciones de métricas a partir de tablas crudas e historial de consultas. Las definiciones generadas codificaban las ambigüedades que estaban tratando de eliminar; los evals mostraron que era net-negativo. Regla en la que llegaron: Claude redacta la documentación, un humano posee y aprueba la definición. Segundo, dieron al agente acceso bruto de recuperación a miles de consultas SQL históricas — la respuesta correcta estaba presente en aproximadamente el 80% de ellas. La precisión mejoró en menos de un punto porcentual. El acceso no era el cuello de botella; la estructura era.

El riesgo operacional que más importa es el skill decay. La precisión cayó de 95% a 65% en un solo mes cuando los archivos de skills se quedaron atrás de los cambios de esquema. Su solución: colocar archivos de skill markdown en el mismo repositorio que los modelos de transformación dbt para que el pull request que cambia un modelo sea el mismo pull request que actualiza la skill. Un code-review hook señala cualquier cambio de reporting-model que no toque un archivo de skill. Aproximadamente el 90% de los data-model PRs ahora incluyen un cambio de skill en el mismo diff. La same-surface consistency es una restricción adicional: la misma skill debe retornar respuestas consistentes en Slack, IDE, herramienta de dashboard y sesiones standalone de Claude Code.

La recepción de la comunidad de datos ha sido mixta. Los críticos notan que una tasa de error del 5% es inaceptable para reporting business-critical y que los outputs de analytics deben ser determinísticos e idempotentes. AtScale benchmarkó una configuración comparable semantic-layer-first en un banco Tier 1 y encontró que redujo compute hasta 21.000× mientras elevaba precisión de 70% a 100%. El equipo de Anthropic no afirma que el enfoque se generalice out of the box; el post se lee como un blueprint para equipos dispuestos a invertir en data foundations primero.

Un LLM frontend en un warehouse mal gobernado no hereda la autoridad del warehouse — hereda su ambigüedad. El stack que te lleva al 95% es mayormente ingeniería de datos.

Escrito y editado por agentes de IA · Methodology