Três Agentes Vencem Todos os Benchmarks SQL Sem Fine-Tuning

Pesquisadores da C3 AI publicaram Data Intelligence Agents (DIA), um sistema de três agentes que automatiza o pipeline de dados corporativos—descoberta, construção de schema e geração de consultas SQL—sem transferências manuais. O Query Generator do DIA, avaliado isoladamente em sete benchmarks SQL abrangendo quatro categorias de tarefas e quatro dialetos SQL, iguala ou supera os melhores resultados publicados em cada benchmark usando um único backbone LLM e zero fine-tuning. Os agentes upstream—Data Interpreter e Schema Creator—são componentes arquiteturais mas não foram avaliados com igual rigor.

O design central promove o agente de codificação autônoma (ACA) como a abstração primária. Enquanto sistemas anteriores emitem texto e transferem para a próxima etapa, os agentes do DIA geram, executam, validam e reparam artefatos concretos dentro de um espaço de trabalho compartilhado. Isso importa operacionalmente: artefatos podem ser inspecionados por especialistas de domínio antes da próxima etapa consumi-los, e cada correção é fundamentada em saída de execução real, não em auto-avaliação do LLM.

Os três agentes dividem o fluxo de trabalho. O Data Interpreter lida com descoberta bruta de dados e extração de significado de campos—trabalho que normalmente requer um proprietário de dados no processo. O Schema Creator estrutura e valida essas saídas em schemas consultáveis. O Query Generator cobre geração SQL, depuração, consultas multi-turno e conclusão de projetos em quatro dialetos. Uma camada de memória compartilhada permite que agentes reutilizem padrões bem-sucedidos de execuções anteriores; adaptação a novos dialetos ou tarefas é feita através de instruções em linguagem natural em vez de retreinamento.

DIA está em execução para clientes corporativos em produção. O trabalho se posiciona contra quatro categorias de trabalhos anteriores, cada uma abordando apenas fragmentos do pipeline. Sistemas de pipeline feitos à mão quebram quando as tarefas mudam. Especialistas treinados com RL alcançam alta precisão em um benchmark mas requerem retreinamento custoso para um segundo dialeto SQL. Exploradores de banco de dados ao vivo não mantêm memória entre sessões, reiniciando do zero em cada consulta. Agentes SQL aumentados com memória mantêm um único armazenamento mas publicam avaliações estreitas e ignoram os estágios de interpretação e schema que determinam se SQL tem algo coerente para executar.

Os resultados dos benchmarks são o núcleo: sete benchmarks, uma configuração do Query Generator, zero fine-tuning. Os autores igualaram ou superaram o melhor número publicado anteriormente em todos os sete. O benchmark DAComp (210 tarefas espelhando fluxos de trabalho corporativos) mostrou agentes de ponta pontuando abaixo de 20% em tarefas de engenharia de dados e abaixo de 40% em tarefas de análise de dados—o gargalo é a orquestração holisticamente do pipeline. O Query Generator contorna isso ao colapsar a geração SQL em um único loop ACA com feedback de execução em cada etapa.

O que permanece não resolvido: a suíte de benchmarks se concentra inteiramente no Query Generator. O Data Interpreter e Schema Creator carecem de rigor equivalente. Como agentes upstream lidam com schemas corporativos genuinamente bagunçados—documentação parcial, tipos mistos, regras de negócio implícitas—permanece uma questão aberta. O design de memória compartilhada carrega uma ressalva: reutilizar experiência anterior requer que a experiência anterior tenha sido correta; erros de schema que persistem se propagam para frente.

Para arquitetos avaliando isso, a história de implantação é apoiada em produção e a alegação de generalização em quatro dialetos SQL sem fine-tuning é concreta. O framing ACA-como-abstração merece teste de stress—sua superfície de depuração é logs de execução, não rastreamentos de prompt, uma melhoria operacional genuína sobre pipelines apenas com texto. Os agentes upstream são a parte menos validada do sistema.

Sources

DIA's Query Generator matches or surpasses the best published results on all seven SQL benchmarks, using a single LLM and no fine-tuning
"It matches or surpasses the best published results on all seven, demonstrating that an architecture grounded in execution, built on ACAs and a shared memory, generalizes across the data intelligence workload with adaptation confined to natural-language instructions."
arxiv.org ↗
DIA is deployed in production for enterprise customers
"DIA is deployed in production for enterprise customers."
arxiv.org ↗
Agents generate, execute, validate, and repair concrete artifacts rather than emitting text
"rather than emitting text, the agents generate, execute, validate, and repair concrete artifacts, draw on a shared memory for experience reuse, and surface each for review by domain experts."
arxiv.org ↗
The Query Generator covers four SQL dialects through self-correction grounded in execution with no fine-tuning
"a single generalist agent that handles SQL generation, debugging, conversational interaction, and project completion across four dialects through self-correction grounded in execution and a shared memory for experience reuse, with adaptation confined to natural-language instructions."
arxiv.org ↗
Agentic explorers probe the database live but keep no memory across sessions, restarting from scratch on every query
"Agentic explorers probe the database live but keep no memory across sessions, restarting from scratch on every query."
arxiv.org ↗
Even state-of-the-art agents score below 20% success on data engineering tasks and below 40% on data analysis tasks per the DAComp benchmark
"Performance on DE tasks is particularly low, with success rates under 20%, exposing a critical bottleneck in holistic pipeline orchestration, not merely code generation. Scores on DA tasks also average below 40%, highlighting profound deficiencies in open-ended reasoning."
arxiv.org ↗
Production data integration fails due to repeated lossy handoffs between data owners, engineers, and analysts
"Production data integration is bottlenecked by repeated, lossy handoffs between data owners, engineers, and analysts who must collaboratively discover, structure, and query enterprise data."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Três Agentes Vencem Todos os Benchmarks SQL Sem Fine-Tuning

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.