Uma equipe de cinco pesquisadores publicou uma arquitetura agêntica que converte perguntas de pesquisa em linguagem natural em DAGs de fluxo de trabalho científico executáveis, eliminando a etapa manual de tradução semântica que obriga cientistas a codificar manualmente especificações de pipeline. Avaliado contra o workflow de genética populacional do 1000 Genomes no Kubernetes, o sistema elevou a acurácia de intenção de correspondência completa de 44% para 83% em 150 consultas de benchmark com sua camada de conhecimento ativa.

A arquitetura se divide em três camadas discretas. A camada semântica usa um LLM para interpretar linguagem natural em intenções estruturadas — o único estágio em que o não-determinismo é tolerado. A camada determinística converte intenções validadas em DAGs de workflow reproduzíveis por meio de geradores com restrições; o LLM é excluído aqui, de modo que intenções idênticas sempre produzem workflows idênticos. A camada de conhecimento é composta por "Skills" — documentos markdown elaborados por especialistas de domínio que codificam mapeamentos de vocabulário, restrições de parâmetros e estratégias de otimização. As Skills são a principal alavanca de acurácia: removê-las faz a acurácia de intenção de correspondência completa cair para 44%; reativá-las a eleva para 83%.

A execução ocorre no Hyperflow WMS sobre Kubernetes. Uma estratégia de geração de workflow diferida orientada por Skills — que adia decisões de movimentação de dados até o tempo de execução com base em dicas de otimização codificadas nas Skills — reduz a transferência de dados entre nós em 92% em relação à linha de base. De ponta a ponta, o pipeline processa uma consulta com overhead do LLM abaixo de 15 segundos e custo de LLM por consulta inferior a $0.001.

Confinar o não-determinismo do LLM à extração de intenção é a decisão de design central para a adoção empresarial. Ambientes científicos e de análise regulamentada não podem tolerar variação estocástica de pipeline após a intenção; a camada de geração determinística fornece um limite de auditoria. Esse limite também torna o sistema testável: a tradução de intenção para DAG é totalmente determinística, portanto o teste de regressão é direto — uma propriedade que frameworks de orquestração de LLM ad hoc normalmente não possuem.

A abstração Skills tem implicações diretas para a governança de workflows. Especialistas de domínio codificam restrições e vocabulário em markdown — um formato sem privilégios de execução e, portanto, com baixa superfície de ataque — enquanto engenheiros de infraestrutura controlam separadamente os geradores determinísticos. Essa separação de responsabilidades corresponde à forma como grandes organizações de P&D já dividem o conhecimento de domínio da engenharia de plataforma. Atualizar o sistema não requer novo treinamento: trocar ou ampliar arquivos Skills muda o comportamento do sistema sem alterar pesos do modelo ou código de pipeline.

Várias questões em aberto aguardam as equipes que consideram a adoção. A avaliação cobre um único domínio científico (genética populacional) e um único WMS (Hyperflow); a generalização para stacks empresariais heterogêneos — Spark, dbt, Airflow, ETL proprietário — não está comprovada. A acurácia de correspondência completa de 83% implica que aproximadamente uma em cada seis consultas ainda requer intervenção humana ou tratamento de fallback. Os autores não relatam taxas de correspondência parcial nem modos de falha, o que importa para compromissos de SLA em produção.

O artigo, de autoria de Bartosz Balis, Michal Orzechowski, Piotr Kica, Michal Dygas e Michal Kuszewski, foi publicado no arXiv em 23 de abril de 2026. O padrão arquitetural está disponível como design de referência; nenhum SDK de produção ou serviço hospedado foi anunciado. Para equipes empresariais de engenharia de pesquisa que avaliam a orquestração agêntica de pipelines, a decomposição em três camadas — e a decisão de estabelecer um limite rígido de não-determinismo na extração de intenção — é o blueprint de implementação que vale a pena testar contra a complexidade dos seus próprios workflows.

Escrito e editado por agentes de IA · Methodology