FIND-Lab lança AgentWard, framework de segurança em cinco camadas para agentes de IA

Pesquisadores do FIND-Lab publicaram o AgentWard, uma arquitetura de segurança de ciclo de vida em cinco camadas para agentes de IA autônomos que trata o runtime completo do agente — desde o carregamento de habilidades até a execução privilegiada de ferramentas — como superfície de ameaça, e não apenas a interface de prompt.

O artigo, publicado em 27 de abril de 2026, identifica o modo de falha central em sistemas agênticos implantados como propagação: uma comprometimento em um estágio corrompe silenciosamente os estágios seguintes antes que qualquer efeito prejudicial seja observável. Um contexto de memória envenenado pode distorcer a camada de planejamento, que então valida e executa um comando prejudicial — cada etapa parecendo localmente legítima. A pesquisa existente sobre segurança de LLMs aborda esses estágios de forma isolada; o AgentWard coordena defesas em todos eles.

O AgentWard estrutura a proteção em cinco camadas nomeadas. A Camada de Verificação de Fundação checa a confiança na cadeia de suprimentos e a integridade da configuração na inicialização do agente, incluindo detecção semântica de habilidades maliciosas carregadas como plugins. A Camada de Sanitização de Entrada intercepta injeção de prompt, tentativas de jailbreak, sequências de instrução maliciosa fragmentadas e anomalias de coerência semântica antes que entrem no pipeline de raciocínio. A Camada de Proteção Cognitiva protege a memória de longo prazo e o contexto conversacional contra envenenamento e desvio. A Camada de Alinhamento de Decisão verifica que as ações planejadas permanecem consistentes com a intenção autorizada do usuário antes que a execução seja acionada. A Camada de Controle de Execução aplica salvaguardas no ponto de invocação de comandos de alto risco — a última linha antes de danos em nível ambiental. Cada camada pode ser ativada ou desativada de forma independente e suporta um modo somente de detecção para reduzir o impacto de falsos positivos durante a implantação.

A propriedade distintiva da arquitetura é a coordenação entre camadas. Em vez de cinco pontos de verificação isolados, o AgentWard implementa um sistema de malha fechada onde sinais de ameaça se propagam para cima e lateralmente, permitindo que uma anomalia detectada na memória suprima ou reavalie decisões posteriores. Os autores descrevem isso como reconstruir "verificações de segurança isoladas em ponto único em um sistema de proteção coordenado em nível de sistema de malha fechada." Quando uma ameaça é detectada, o sistema pode enviar alertas por mensagem instantânea, bloquear automaticamente a operação perigosa sem intervenção humana e registrar descrições de aviso estruturadas para auditoria.

As implicações corporativas são concretas. Sistemas agênticos rodando em frameworks como o OpenClaw — a plataforma de agentes que o AgentWard atualmente suporta nativamente — já são invocados contra armazenamentos de dados de produção, APIs internas e serviços externos. Sem segurança em runtime, uma única entrada adversarial que alcance a camada de memória de um agente pode persistir entre sessões e corromper ciclos futuros de planejamento de formas difíceis de atribuir após o incidente. O modelo de implantação nativo por plugin com um clique do AgentWard endereça o atrito de integração que historicamente faz com que ferramentas de segurança sejam acopladas após a implantação, em vez de integradas ao ciclo de vida do agente.

A arquitetura entrega o que os autores chamam de "segurança determinística, totalmente auditável e aplicada por código" — um contraste deliberado com abordagens que dependem do próprio LLM para detectar e recusar entradas adversariais. O artigo posiciona a segurança endógena baseada em habilidades como insuficiente para ambientes de produção, pois herda as mesmas propriedades de confiabilidade e superfície de ataque do modelo que tenta proteger.

As limitações atuais são reais. O protótipo roda em Linux e tem como alvo especificamente o OpenClaw; suporte a macOS e Windows, verificação de fonte de habilidades, análise de dependência de plugins e detecção de ataques furtivos de múltiplos turnos estão listados como itens de roadmap, não como funcionalidades entregues. O roadmap também aponta avaliação de risco com consciência de confiança e detecção híbrida de vulnerabilidades em linguagem natural/código como itens futuros. O código é open-source em https://github.com/FIND-Lab/AgentWard sob um modelo orientado pela comunidade.

Arquitetos corporativos que avaliam plataformas agênticas agora dispõem de um modelo concreto de ameaças e uma implementação de referência. Se o framework se generaliza para o conjunto mais amplo de runtimes de agentes — LangChain, AutoGen, CrewAI — onde a maioria das implantações de produção atualmente reside, permanece não testado.

Sources

AgentWard is a lifecycle security architecture covering five stages: initialization, input processing, memory, decision-making, and execution
"AgentWard, a lifecycle-oriented, defense-in-depth architecture that systematically organizes protection across these five stages"
arxiv.org ↗
Security failures in agent systems rarely remain confined to a single interface and propagate across stages
"security failures rarely remain confined to a single interface; instead, they can propagate across initialization, input processing, memory, decision-making, and execution, often becoming apparent only when harmful effects materialize in the environment"
arxiv.org ↗
AgentWard implements a plugin-native prototype on OpenClaw
"implement a plugin-native prototype on OpenClaw to demonstrate practical feasibility"
arxiv.org ↗
AgentWard's five layers: Foundation Scan, Input Sanitization, Cognition Protection, Decision Alignment, Execution Control
"Layer Focus 🏗️ Foundation Scan Layer Supply chain trust and baseline integrity 🧼 Input Sanitization Layer Prompt injection and jailbreak detection 🧠 Cognition Protection Layer Memory poisoning and context drift 🎯 Decision Alignment Layer Intent consistency before action 🔧 Execution Control Layer High-risk operation guardrails"
github.com ↗
Each protection layer can be enabled or disabled independently and supports a detection-only mode
"Each protection layer can be enabled/disabled independently 👁️ Supports 'detection-only' mode to reduce false positive impact"
github.com ↗
When a threat is detected, AgentWard can send IM alerts and automatically block dangerous operations without human intervention
"Send alert messages via IM when threats are detected 🛑 Automatically block dangerous operations without human intervention 📝 Clear warning descriptions to help understand risks"
github.com ↗
AgentWard delivers deterministic, fully auditable, code-enforced security that outperforms skill-based solutions
"Delivers deterministic, fully auditable, code-enforced security that outperforms skill-based solutions depending on endogenous security"
github.com ↗
Cross-layer coordination reconstructs isolated single-point security checks into a closed-loop, coordinated system-level protection system
"reconstructs isolated single-point security checks into a closed-loop, coordinated system-level protection system, delivering end-to-end, full-chain trustworthy assurance"
github.com ↗
macOS and Windows support are roadmap items, not shipped features; current prototype runs on Linux
"🚀 Heterogeneous OS support ✅ Linux 🚀 macOS 🚀 Windows"
github.com ↗
AgentWard code is open-sourced at https://github.com/FIND-Lab/AgentWard
"Our code is available at https://github.com/FIND-Lab/AgentWard"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

FIND-Lab lança AgentWard, framework de segurança em cinco camadas para agentes de IA

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.