Framework Agéntico Alcanza 83% de Precisión de Intención al Confinar el LLM al Parsing de Consultas

Un equipo de cinco investigadores publicó una arquitectura agéntica que convierte preguntas de investigación en lenguaje natural en DAGs de flujo de trabajo científico ejecutables, eliminando la etapa manual de traducción semántica que obliga a los científicos a codificar manualmente especificaciones de pipeline. Evaluado contra el workflow de genética poblacional del 1000 Genomes en Kubernetes, el sistema elevó la precisión de intención de correspondencia completa del 44% al 83% en 150 consultas de benchmark con su capa de conocimiento activa.

La arquitectura se divide en tres capas discretas. La capa semántica usa un LLM para interpretar el lenguaje natural en intenciones estructuradas — el único estadio donde se tolera el no-determinismo. La capa determinista convierte intenciones validadas en DAGs de workflow reproducibles mediante generadores con restricciones; el LLM queda excluido aquí, de modo que intenciones idénticas siempre producen workflows idénticos. La capa de conocimiento está compuesta por "Skills" — documentos markdown elaborados por expertos de dominio que codifican mapeos de vocabulario, restricciones de parámetros y estrategias de optimización. Las Skills son la palanca principal de precisión: eliminarlas hace caer la precisión de intención de correspondencia completa al 44%; reactivarlas la eleva al 83%.

La ejecución corre sobre Hyperflow WMS en Kubernetes. Una estrategia de generación diferida de workflow orientada por Skills — que aplaza las decisiones de movimiento de datos hasta el tiempo de ejecución basándose en indicaciones de optimización codificadas en Skills — reduce la transferencia de datos entre nodos en un 92% respecto a la línea base. De extremo a extremo, el pipeline procesa una consulta con overhead del LLM por debajo de 15 segundos y un costo de LLM por consulta inferior a $0.001.

Confinar el no-determinismo del LLM a la extracción de intención es la decisión de diseño central para la adopción empresarial. Los entornos científicos y de análisis regulado no pueden tolerar variación estocástica en el pipeline aguas abajo de la intención; la capa de generación determinista provee un límite de auditoría. Ese límite también hace al sistema testeable: la traducción de intención a DAG es totalmente determinista, por lo que las pruebas de regresión son directas — una propiedad de la que los frameworks de orquestración ad hoc de LLM típicamente carecen.

La abstracción Skills tiene implicaciones directas para la gobernanza de workflows. Los expertos de dominio codifican restricciones y vocabulario en markdown — un formato sin privilegios de ejecución y, por tanto, con baja superficie de ataque — mientras que los ingenieros de infraestructura controlan por separado los generadores deterministas. Esta separación de responsabilidades se corresponde con la forma en que las grandes organizaciones de I+D ya particionan el conocimiento de dominio de la ingeniería de plataforma. Actualizar el sistema no requiere reentrenamiento: intercambiar o ampliar archivos Skills cambia el comportamiento del sistema sin modificar pesos del modelo ni código de pipeline.

Varias preguntas abiertas enfrentan los equipos que consideran la adopción. La evaluación cubre un único dominio científico (genética poblacional) y un único WMS (Hyperflow); la generalización a stacks empresariales heterogéneos — Spark, dbt, Airflow, ETL propietario — no está comprobada. La precisión de correspondencia completa del 83% implica que aproximadamente una de cada seis consultas aún requiere intervención humana o manejo de fallback. Los autores no reportan tasas de correspondencia parcial ni modos de falla, lo que importa para compromisos de SLA en producción.

El artículo, de autoría de Bartosz Balis, Michal Orzechowski, Piotr Kica, Michal Dygas y Michal Kuszewski, fue publicado en arXiv el 23 de abril de 2026. El patrón arquitectónico está disponible como diseño de referencia; no se anuncia ningún SDK de producción ni servicio hospedado. Para equipos empresariales de ingeniería de investigación que evalúan la orquestación agéntica de pipelines, la descomposición en tres capas — y la decisión de establecer un límite estricto de no-determinismo en la extracción de intención — es el blueprint de implementación que vale la pena someter a prueba de estrés contra la complejidad de sus propios workflows.

Sources

Skills raise full-match intent accuracy from 44% to 83% across 150 benchmark queries
"In an ablation study on 150 queries, Skills raise full-match intent accuracy from 44% to 83%"
arxiv.org ↗
Skill-driven deferred workflow generation reduces data transfer by 92%
"skill-driven deferred workflow generation reduces data transfer by 92%"
arxiv.org ↗
LLM overhead below 15 seconds and cost under $0.001 per query
"the end-to-end pipeline completes queries on Kubernetes with LLM overhead below 15 seconds and cost under $0.001 per query"
arxiv.org ↗
Three-layer architecture: semantic layer (LLM), deterministic layer (DAG generators), knowledge layer (Skills)
"an LLM interprets natural language into structured intents (semantic layer); validated generators produce reproducible workflow DAGs (deterministic layer); and domain experts author 'Skills': markdown documents encoding vocabulary mappings, parameter constraints, and optimization strategies (knowledge layer)"
arxiv.org ↗
Identical intents always yield identical workflows — LLM non-determinism confined to intent extraction
"This decomposition confines LLM non-determinism to intent extraction: identical intents always yield identical workflows"
arxiv.org ↗
System evaluated on the 1000 Genomes population genetics workflow and Hyperflow WMS running on Kubernetes
"We implement and evaluate the architecture on the 1000 Genomes population genetics workflow and Hyperflow WMS running on Kubernetes"
arxiv.org ↗
Scientific workflow systems automate execution but not the semantic translation step preceding it
"Scientific workflow systems automate execution -- scheduling, fault tolerance, resource management -- but not the semantic translation that precedes it"
arxiv.org ↗
Paper authored by Bartosz Balis, Michal Orzechowski, Piotr Kica, Michal Dygas, and Michal Kuszewski, posted 23 April 2026
"AUTHORS: Bartosz Balis, Michal Orzechowski, Piotr Kica, Michal Dygas, Michal Kuszewski — PUBLISHED: 2026-04-23T17:52:52Z"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology