Tres Agentes Vencen Todos los Benchmarks SQL Sin Fine-Tuning

Los investigadores de C3 AI publicaron Data Intelligence Agents (DIA), un sistema de tres agentes que automatiza el pipeline de datos empresariales—descubrimiento, construcción de esquema y generación de consultas SQL—sin entregas manuales. El Query Generator de DIA, evaluado aisladamente en siete benchmarks SQL que abarcan cuatro categorías de tarefas y cuatro dialectos SQL, iguala o supera los mejores resultados publicados en cada benchmark utilizando un único backbone LLM y cero fine-tuning. Los agentes upstream—Data Interpreter y Schema Creator—son componentes arquitectónicos pero no fueron evaluados con igual rigor.

El diseño central promueve el agente de codificación autónoma (ACA) como la abstracción primaria. Mientras que los sistemas anteriores emiten texto y entregan a la siguiente etapa, los agentes de DIA generan, ejecutan, validan y reparan artefactos concretos dentro de un espacio de trabajo compartido. Esto importa operacionalmente: los artefactos pueden ser inspeccionados por expertos de dominio antes de que la siguiente etapa los consuma, y cada corrección se basa en la salida de ejecución real, no en autoevaluación de LLM.

Los tres agentes dividen el flujo de trabajo. El Data Interpreter maneja el descubrimiento de datos sin procesar y la extracción del significado de campos—trabajo que normalmente requiere un propietario de datos en el proceso. El Schema Creator estructura y valida estos resultados en esquemas consultables. El Query Generator cubre la generación SQL, depuración, consultas multi-turno y finalización de proyectos en cuatro dialectos. Una capa de memoria compartida permite que los agentes reutilicen patrones exitosos de ejecuciones anteriores; la adaptación a nuevos dialectos o tareas se realiza a través de instrucciones en lenguaje natural en lugar de reentrenamiento.

DIA se ejecuta para clientes empresariales en producción. El documento se posiciona contra cuatro categorías de trabajos anteriores, cada una abordando solo fragmentos del pipeline. Los sistemas de pipeline diseñados a mano se rompen cuando las tareas cambian. Los especialistas entrenados con RL logran alta precisión en un benchmark pero requieren reentrenamiento costoso para un segundo dialecto SQL. Los exploradores de bases de datos en vivo no mantienen memoria entre sesiones, reiniciando desde cero en cada consulta. Los agentes SQL aumentados con memoria mantienen un único almacén pero publican evaluaciones limitadas e ignoran las etapas de interpretación y esquema que determinan si SQL tiene algo coherente para ejecutar.

Los resultados de los benchmarks son lo fundamental: siete benchmarks, una configuración de Query Generator, cero fine-tuning. Los autores igualaron o superaron el mejor número publicado previamente en los siete. El benchmark DAComp (210 tareas que reflejan flujos de trabajo empresariales) mostró agentes de última generación puntuando por debajo del 20% en tareas de ingeniería de datos y por debajo del 40% en tareas de análisis de datos—el cuello de botella es la orquestación holística del pipeline. El Query Generator evita esto al colapsar la generación SQL en un único bucle ACA con retroalimentación de ejecución en cada paso.

Lo que permanece sin resolver: el conjunto de benchmarks se enfoca enteramente en el Query Generator. El Data Interpreter y Schema Creator carecen de rigor equivalente. Cómo los agentes upstream manejan esquemas empresariales genuinamente desordenados—documentación parcial, tipos mixtos, reglas comerciales implícitas—sigue siendo una pregunta abierta. El diseño de memoria compartida conlleva una advertencia: reutilizar experiencia anterior requiere que la experiencia anterior fuera correcta; los errores de esquema que persisten se propagan hacia adelante.

Para arquitectos que evalúen esto, la historia de implementación está respaldada en producción y la afirmación de generalización en cuatro dialectos SQL sin fine-tuning es concreta. El enfoque ACA-como-abstracción merece pruebas de estrés—tu superficie de depuración son registros de ejecución, no rastros de prompt, una mejora operacional genuina sobre pipelines de solo texto. Los agentes upstream son la parte menos validada del sistema.

Sources

DIA's Query Generator matches or surpasses the best published results on all seven SQL benchmarks, using a single LLM and no fine-tuning
"It matches or surpasses the best published results on all seven, demonstrating that an architecture grounded in execution, built on ACAs and a shared memory, generalizes across the data intelligence workload with adaptation confined to natural-language instructions."
arxiv.org ↗
DIA is deployed in production for enterprise customers
"DIA is deployed in production for enterprise customers."
arxiv.org ↗
Agents generate, execute, validate, and repair concrete artifacts rather than emitting text
"rather than emitting text, the agents generate, execute, validate, and repair concrete artifacts, draw on a shared memory for experience reuse, and surface each for review by domain experts."
arxiv.org ↗
The Query Generator covers four SQL dialects through self-correction grounded in execution with no fine-tuning
"a single generalist agent that handles SQL generation, debugging, conversational interaction, and project completion across four dialects through self-correction grounded in execution and a shared memory for experience reuse, with adaptation confined to natural-language instructions."
arxiv.org ↗
Agentic explorers probe the database live but keep no memory across sessions, restarting from scratch on every query
"Agentic explorers probe the database live but keep no memory across sessions, restarting from scratch on every query."
arxiv.org ↗
Even state-of-the-art agents score below 20% success on data engineering tasks and below 40% on data analysis tasks per the DAComp benchmark
"Performance on DE tasks is particularly low, with success rates under 20%, exposing a critical bottleneck in holistic pipeline orchestration, not merely code generation. Scores on DA tasks also average below 40%, highlighting profound deficiencies in open-ended reasoning."
arxiv.org ↗
Production data integration fails due to repeated lossy handoffs between data owners, engineers, and analysts
"Production data integration is bottlenecked by repeated, lossy handoffs between data owners, engineers, and analysts who must collaboratively discover, structure, and query enterprise data."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Tres Agentes Vencen Todos los Benchmarks SQL Sin Fine-Tuning

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.