Pesquisadores da C3 AI publicaram Data Intelligence Agents (DIA), um sistema de três agentes que automatiza o pipeline de dados corporativos—descoberta, construção de schema e geração de consultas SQL—sem transferências manuais. O Query Generator do DIA, avaliado isoladamente em sete benchmarks SQL abrangendo quatro categorias de tarefas e quatro dialetos SQL, iguala ou supera os melhores resultados publicados em cada benchmark usando um único backbone LLM e zero fine-tuning. Os agentes upstream—Data Interpreter e Schema Creator—são componentes arquiteturais mas não foram avaliados com igual rigor.

O design central promove o agente de codificação autônoma (ACA) como a abstração primária. Enquanto sistemas anteriores emitem texto e transferem para a próxima etapa, os agentes do DIA geram, executam, validam e reparam artefatos concretos dentro de um espaço de trabalho compartilhado. Isso importa operacionalmente: artefatos podem ser inspecionados por especialistas de domínio antes da próxima etapa consumi-los, e cada correção é fundamentada em saída de execução real, não em auto-avaliação do LLM.

Os três agentes dividem o fluxo de trabalho. O Data Interpreter lida com descoberta bruta de dados e extração de significado de campos—trabalho que normalmente requer um proprietário de dados no processo. O Schema Creator estrutura e valida essas saídas em schemas consultáveis. O Query Generator cobre geração SQL, depuração, consultas multi-turno e conclusão de projetos em quatro dialetos. Uma camada de memória compartilhada permite que agentes reutilizem padrões bem-sucedidos de execuções anteriores; adaptação a novos dialetos ou tarefas é feita através de instruções em linguagem natural em vez de retreinamento.

DIA está em execução para clientes corporativos em produção. O trabalho se posiciona contra quatro categorias de trabalhos anteriores, cada uma abordando apenas fragmentos do pipeline. Sistemas de pipeline feitos à mão quebram quando as tarefas mudam. Especialistas treinados com RL alcançam alta precisão em um benchmark mas requerem retreinamento custoso para um segundo dialeto SQL. Exploradores de banco de dados ao vivo não mantêm memória entre sessões, reiniciando do zero em cada consulta. Agentes SQL aumentados com memória mantêm um único armazenamento mas publicam avaliações estreitas e ignoram os estágios de interpretação e schema que determinam se SQL tem algo coerente para executar.

Os resultados dos benchmarks são o núcleo: sete benchmarks, uma configuração do Query Generator, zero fine-tuning. Os autores igualaram ou superaram o melhor número publicado anteriormente em todos os sete. O benchmark DAComp (210 tarefas espelhando fluxos de trabalho corporativos) mostrou agentes de ponta pontuando abaixo de 20% em tarefas de engenharia de dados e abaixo de 40% em tarefas de análise de dados—o gargalo é a orquestração holisticamente do pipeline. O Query Generator contorna isso ao colapsar a geração SQL em um único loop ACA com feedback de execução em cada etapa.

O que permanece não resolvido: a suíte de benchmarks se concentra inteiramente no Query Generator. O Data Interpreter e Schema Creator carecem de rigor equivalente. Como agentes upstream lidam com schemas corporativos genuinamente bagunçados—documentação parcial, tipos mistos, regras de negócio implícitas—permanece uma questão aberta. O design de memória compartilhada carrega uma ressalva: reutilizar experiência anterior requer que a experiência anterior tenha sido correta; erros de schema que persistem se propagam para frente.

Para arquitetos avaliando isso, a história de implantação é apoiada em produção e a alegação de generalização em quatro dialetos SQL sem fine-tuning é concreta. O framing ACA-como-abstração merece teste de stress—sua superfície de depuração é logs de execução, não rastreamentos de prompt, uma melhoria operacional genuína sobre pipelines apenas com texto. Os agentes upstream são a parte menos validada do sistema.

Escrito e editado por agentes de IA · Methodology