Framework Agêntico Atinge 83% de Acurácia de Intenção ao Confinar o LLM ao Parsing de Consultas

Pesquisadores propõem uma arquitetura agêntica de três camadas que elimina a lacuna entre a intenção de pesquisa em linguagem natural e a execução de fluxos de trabalho científicos em nível de produção — tratando de forma autônoma a interpretação semântica, a geração de workflows e a orquestração de infraestrutura. O sistema remove o gargalo de "tradução semântica" manual que obriga cientistas e engenheiros de dados a converter manualmente perguntas analíticas em especificações de pipeline, um processo que hoje exige tanto conhecimento de domínio quanto conhecimento de infraestrutura. Para equipes empresariais de ciência de dados e engenharia de pesquisa, o padrão arquitetural oferece um blueprint para pipelines analíticos autodirigidos que podem ser acionados em linguagem simples.

Uma equipe de cinco pesquisadores publicou uma arquitetura agêntica que converte perguntas de pesquisa em linguagem natural em DAGs de fluxo de trabalho científico executáveis, eliminando a etapa manual de tradução semântica que obriga cientistas a codificar manualmente especificações de pipeline. Avaliado contra o workflow de genética populacional do 1000 Genomes no Kubernetes, o sistema elevou a acurácia de intenção de correspondência completa de 44% para 83% em 150 consultas de benchmark com sua camada de conhecimento ativa.

A arquitetura se divide em três camadas discretas. A camada semântica usa um LLM para interpretar linguagem natural em intenções estruturadas — o único estágio em que o não-determinismo é tolerado. A camada determinística converte intenções validadas em DAGs de workflow reproduzíveis por meio de geradores com restrições; o LLM é excluído aqui, de modo que intenções idênticas sempre produzem workflows idênticos. A camada de conhecimento é composta por "Skills" — documentos markdown elaborados por especialistas de domínio que codificam mapeamentos de vocabulário, restrições de parâmetros e estratégias de otimização. As Skills são a principal alavanca de acurácia: removê-las faz a acurácia de intenção de correspondência completa cair para 44%; reativá-las a eleva para 83%.

A execução ocorre no Hyperflow WMS sobre Kubernetes. Uma estratégia de geração de workflow diferida orientada por Skills — que adia decisões de movimentação de dados até o tempo de execução com base em dicas de otimização codificadas nas Skills — reduz a transferência de dados entre nós em 92% em relação à linha de base. De ponta a ponta, o pipeline processa uma consulta com overhead do LLM abaixo de 15 segundos e custo de LLM por consulta inferior a $0.001.

Confinar o não-determinismo do LLM à extração de intenção é a decisão de design central para a adoção empresarial. Ambientes científicos e de análise regulamentada não podem tolerar variação estocástica de pipeline após a intenção; a camada de geração determinística fornece um limite de auditoria. Esse limite também torna o sistema testável: a tradução de intenção para DAG é totalmente determinística, portanto o teste de regressão é direto — uma propriedade que frameworks de orquestração de LLM ad hoc normalmente não possuem.

A abstração Skills tem implicações diretas para a governança de workflows. Especialistas de domínio codificam restrições e vocabulário em markdown — um formato sem privilégios de execução e, portanto, com baixa superfície de ataque — enquanto engenheiros de infraestrutura controlam separadamente os geradores determinísticos. Essa separação de responsabilidades corresponde à forma como grandes organizações de P&D já dividem o conhecimento de domínio da engenharia de plataforma. Atualizar o sistema não requer novo treinamento: trocar ou ampliar arquivos Skills muda o comportamento do sistema sem alterar pesos do modelo ou código de pipeline.

Várias questões em aberto aguardam as equipes que consideram a adoção. A avaliação cobre um único domínio científico (genética populacional) e um único WMS (Hyperflow); a generalização para stacks empresariais heterogêneos — Spark, dbt, Airflow, ETL proprietário — não está comprovada. A acurácia de correspondência completa de 83% implica que aproximadamente uma em cada seis consultas ainda requer intervenção humana ou tratamento de fallback. Os autores não relatam taxas de correspondência parcial nem modos de falha, o que importa para compromissos de SLA em produção.

O artigo, de autoria de Bartosz Balis, Michal Orzechowski, Piotr Kica, Michal Dygas e Michal Kuszewski, foi publicado no arXiv em 23 de abril de 2026. O padrão arquitetural está disponível como design de referência; nenhum SDK de produção ou serviço hospedado foi anunciado. Para equipes empresariais de engenharia de pesquisa que avaliam a orquestração agêntica de pipelines, a decomposição em três camadas — e a decisão de estabelecer um limite rígido de não-determinismo na extração de intenção — é o blueprint de implementação que vale a pena testar contra a complexidade dos seus próprios workflows.

Sources

Skills raise full-match intent accuracy from 44% to 83% across 150 benchmark queries
"In an ablation study on 150 queries, Skills raise full-match intent accuracy from 44% to 83%"
arxiv.org ↗
Skill-driven deferred workflow generation reduces data transfer by 92%
"skill-driven deferred workflow generation reduces data transfer by 92%"
arxiv.org ↗
LLM overhead below 15 seconds and cost under $0.001 per query
"the end-to-end pipeline completes queries on Kubernetes with LLM overhead below 15 seconds and cost under $0.001 per query"
arxiv.org ↗
Three-layer architecture: semantic layer (LLM), deterministic layer (DAG generators), knowledge layer (Skills)
"an LLM interprets natural language into structured intents (semantic layer); validated generators produce reproducible workflow DAGs (deterministic layer); and domain experts author 'Skills': markdown documents encoding vocabulary mappings, parameter constraints, and optimization strategies (knowledge layer)"
arxiv.org ↗
Identical intents always yield identical workflows — LLM non-determinism confined to intent extraction
"This decomposition confines LLM non-determinism to intent extraction: identical intents always yield identical workflows"
arxiv.org ↗
System evaluated on the 1000 Genomes population genetics workflow and Hyperflow WMS running on Kubernetes
"We implement and evaluate the architecture on the 1000 Genomes population genetics workflow and Hyperflow WMS running on Kubernetes"
arxiv.org ↗
Scientific workflow systems automate execution but not the semantic translation step preceding it
"Scientific workflow systems automate execution -- scheduling, fault tolerance, resource management -- but not the semantic translation that precedes it"
arxiv.org ↗
Paper authored by Bartosz Balis, Michal Orzechowski, Piotr Kica, Michal Dygas, and Michal Kuszewski, posted 23 April 2026
"AUTHORS: Bartosz Balis, Michal Orzechowski, Piotr Kica, Michal Dygas, Michal Kuszewski — PUBLISHED: 2026-04-23T17:52:52Z"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Framework Agêntico Atinge 83% de Acurácia de Intenção ao Confinar o LLM ao Parsing de Consultas

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.