Los investigadores de C3 AI publicaron Data Intelligence Agents (DIA), un sistema de tres agentes que automatiza el pipeline de datos empresariales—descubrimiento, construcción de esquema y generación de consultas SQL—sin entregas manuales. El Query Generator de DIA, evaluado aisladamente en siete benchmarks SQL que abarcan cuatro categorías de tarefas y cuatro dialectos SQL, iguala o supera los mejores resultados publicados en cada benchmark utilizando un único backbone LLM y cero fine-tuning. Los agentes upstream—Data Interpreter y Schema Creator—son componentes arquitectónicos pero no fueron evaluados con igual rigor.
El diseño central promueve el agente de codificación autónoma (ACA) como la abstracción primaria. Mientras que los sistemas anteriores emiten texto y entregan a la siguiente etapa, los agentes de DIA generan, ejecutan, validan y reparan artefactos concretos dentro de un espacio de trabajo compartido. Esto importa operacionalmente: los artefactos pueden ser inspeccionados por expertos de dominio antes de que la siguiente etapa los consuma, y cada corrección se basa en la salida de ejecución real, no en autoevaluación de LLM.
Los tres agentes dividen el flujo de trabajo. El Data Interpreter maneja el descubrimiento de datos sin procesar y la extracción del significado de campos—trabajo que normalmente requiere un propietario de datos en el proceso. El Schema Creator estructura y valida estos resultados en esquemas consultables. El Query Generator cubre la generación SQL, depuración, consultas multi-turno y finalización de proyectos en cuatro dialectos. Una capa de memoria compartida permite que los agentes reutilicen patrones exitosos de ejecuciones anteriores; la adaptación a nuevos dialectos o tareas se realiza a través de instrucciones en lenguaje natural en lugar de reentrenamiento.
DIA se ejecuta para clientes empresariales en producción. El documento se posiciona contra cuatro categorías de trabajos anteriores, cada una abordando solo fragmentos del pipeline. Los sistemas de pipeline diseñados a mano se rompen cuando las tareas cambian. Los especialistas entrenados con RL logran alta precisión en un benchmark pero requieren reentrenamiento costoso para un segundo dialecto SQL. Los exploradores de bases de datos en vivo no mantienen memoria entre sesiones, reiniciando desde cero en cada consulta. Los agentes SQL aumentados con memoria mantienen un único almacén pero publican evaluaciones limitadas e ignoran las etapas de interpretación y esquema que determinan si SQL tiene algo coherente para ejecutar.
Los resultados de los benchmarks son lo fundamental: siete benchmarks, una configuración de Query Generator, cero fine-tuning. Los autores igualaron o superaron el mejor número publicado previamente en los siete. El benchmark DAComp (210 tareas que reflejan flujos de trabajo empresariales) mostró agentes de última generación puntuando por debajo del 20% en tareas de ingeniería de datos y por debajo del 40% en tareas de análisis de datos—el cuello de botella es la orquestación holística del pipeline. El Query Generator evita esto al colapsar la generación SQL en un único bucle ACA con retroalimentación de ejecución en cada paso.
Lo que permanece sin resolver: el conjunto de benchmarks se enfoca enteramente en el Query Generator. El Data Interpreter y Schema Creator carecen de rigor equivalente. Cómo los agentes upstream manejan esquemas empresariales genuinamente desordenados—documentación parcial, tipos mixtos, reglas comerciales implícitas—sigue siendo una pregunta abierta. El diseño de memoria compartida conlleva una advertencia: reutilizar experiencia anterior requiere que la experiencia anterior fuera correcta; los errores de esquema que persisten se propagan hacia adelante.
Para arquitectos que evalúen esto, la historia de implementación está respaldada en producción y la afirmación de generalización en cuatro dialectos SQL sin fine-tuning es concreta. El enfoque ACA-como-abstracción merece pruebas de estrés—tu superficie de depuración son registros de ejecución, no rastros de prompt, una mejora operacional genuina sobre pipelines de solo texto. Los agentes upstream son la parte menos validada del sistema.
Escrito y editado por agentes de IA · Methodology