FIND-Lab lanza AgentWard, un framework de seguridad de cinco capas para agentes de IA

Investigadores de FIND-Lab han publicado AgentWard, una arquitectura de seguridad de ciclo de vida en cinco capas para agentes de IA autónomos que trata el runtime completo del agente — desde la carga de habilidades hasta la ejecución privilegiada de herramientas — como la superficie de amenaza, no solo la interfaz de prompt.

El paper, publicado el 27 de abril de 2026, identifica el modo de falla central en sistemas agénticos desplegados como propagación: un compromiso en una etapa corrompe silenciosamente las etapas posteriores antes de que cualquier efecto dañino sea observable. Un contexto de memoria envenenado puede sesgar la capa de planificación, que luego valida y ejecuta un comando dañino — cada paso pareciendo localmente legítimo. La investigación existente sobre seguridad de LLMs aborda estas etapas de forma aislada; AgentWard coordina defensas en todas ellas.

AgentWard estructura la protección en cinco capas nombradas. La Capa de Escaneo de Fundación verifica la confianza en la cadena de suministro y la integridad de la configuración al inicio del agente, incluyendo detección semántica de habilidades maliciosas cargadas como plugins. La Capa de Sanitización de Entrada intercepta inyección de prompt, intentos de jailbreak, secuencias de instrucción maliciosa fragmentadas y anomalías de coherencia semántica antes de que entren al pipeline de razonamiento. La Capa de Protección Cognitiva protege la memoria a largo plazo y el contexto conversacional contra envenenamiento y deriva. La Capa de Alineación de Decisión verifica que las acciones planificadas sean consistentes con la intención autorizada del usuario antes de activar la ejecución. La Capa de Control de Ejecución aplica salvaguardas en el punto de invocación de comandos de alto riesgo — la última línea antes del daño a nivel ambiental. Cada capa puede habilitarse o deshabilitarse de forma independiente y soporta un modo solo de detección para reducir el impacto de falsos positivos durante el despliegue.

La propiedad distintiva de la arquitectura es la coordinación entre capas. En lugar de cinco puntos de control aislados, AgentWard implementa un sistema de bucle cerrado donde las señales de amenaza se propagan hacia arriba y lateralmente, permitiendo que una anomalía detectada en memoria suprima o reevalúe decisiones posteriores. Los autores describen esto como reconstruir "verificaciones de seguridad aisladas en punto único en un sistema de protección coordinado a nivel de sistema de bucle cerrado." Cuando se detecta una amenaza, el sistema puede enviar alertas por mensajería instantánea, bloquear automáticamente la operación peligrosa sin intervención humana y registrar descripciones de advertencia estructuradas para auditoría.

Las implicaciones empresariales son concretas. Los sistemas agénticos que operan sobre frameworks como OpenClaw — la plataforma de agentes a la que AgentWard apunta nativamente — ya se invocan contra almacenes de datos de producción, APIs internas y servicios externos. Sin seguridad en runtime, una sola entrada adversarial que alcance la capa de memoria de un agente puede persistir entre sesiones y corromper ciclos futuros de planificación de formas difíciles de atribuir tras el incidente. El modelo de despliegue nativo por plugin con un clic de AgentWard aborda la fricción de integración que históricamente ha causado que las herramientas de seguridad se añadan después del despliegue en lugar de integrarse al ciclo de vida del agente.

La arquitectura entrega lo que los autores denominan "seguridad determinística, totalmente auditable y aplicada por código" — un contraste deliberado con enfoques que dependen del propio LLM para detectar y rechazar entradas adversariales. El paper posiciona la seguridad endógena basada en habilidades como insuficiente para entornos de producción, ya que hereda las mismas propiedades de confiabilidad y superficie de ataque del modelo que intenta proteger.

Las limitaciones actuales son reales. El prototipo corre en Linux y apunta específicamente a OpenClaw; soporte para macOS y Windows, verificación de fuente de habilidades, análisis de dependencia de plugins y detección de ataques furtivos de múltiples turnos están listados como ítems del roadmap y no como funcionalidades entregadas. El roadmap también señala evaluación de riesgo con conciencia de confianza y detección híbrida de vulnerabilidades en lenguaje natural/código como elementos futuros. El código es open-source en https://github.com/FIND-Lab/AgentWard bajo un modelo orientado por la comunidad.

Los arquitectos empresariales que evalúan plataformas agénticas ahora cuentan con un modelo concreto de amenazas y una implementación de referencia. Si el framework se generaliza al conjunto más amplio de runtimes de agentes — LangChain, AutoGen, CrewAI — donde reside la mayoría de los despliegues de producción actuales, sigue sin probarse.

Sources

AgentWard is a lifecycle security architecture covering five stages: initialization, input processing, memory, decision-making, and execution
"AgentWard, a lifecycle-oriented, defense-in-depth architecture that systematically organizes protection across these five stages"
arxiv.org ↗
Security failures in agent systems rarely remain confined to a single interface and propagate across stages
"security failures rarely remain confined to a single interface; instead, they can propagate across initialization, input processing, memory, decision-making, and execution, often becoming apparent only when harmful effects materialize in the environment"
arxiv.org ↗
AgentWard implements a plugin-native prototype on OpenClaw
"implement a plugin-native prototype on OpenClaw to demonstrate practical feasibility"
arxiv.org ↗
AgentWard's five layers: Foundation Scan, Input Sanitization, Cognition Protection, Decision Alignment, Execution Control
"Layer Focus 🏗️ Foundation Scan Layer Supply chain trust and baseline integrity 🧼 Input Sanitization Layer Prompt injection and jailbreak detection 🧠 Cognition Protection Layer Memory poisoning and context drift 🎯 Decision Alignment Layer Intent consistency before action 🔧 Execution Control Layer High-risk operation guardrails"
github.com ↗
Each protection layer can be enabled or disabled independently and supports a detection-only mode
"Each protection layer can be enabled/disabled independently 👁️ Supports 'detection-only' mode to reduce false positive impact"
github.com ↗
When a threat is detected, AgentWard can send IM alerts and automatically block dangerous operations without human intervention
"Send alert messages via IM when threats are detected 🛑 Automatically block dangerous operations without human intervention 📝 Clear warning descriptions to help understand risks"
github.com ↗
AgentWard delivers deterministic, fully auditable, code-enforced security that outperforms skill-based solutions
"Delivers deterministic, fully auditable, code-enforced security that outperforms skill-based solutions depending on endogenous security"
github.com ↗
Cross-layer coordination reconstructs isolated single-point security checks into a closed-loop, coordinated system-level protection system
"reconstructs isolated single-point security checks into a closed-loop, coordinated system-level protection system, delivering end-to-end, full-chain trustworthy assurance"
github.com ↗
macOS and Windows support are roadmap items, not shipped features; current prototype runs on Linux
"🚀 Heterogeneous OS support ✅ Linux 🚀 macOS 🚀 Windows"
github.com ↗
AgentWard code is open-sourced at https://github.com/FIND-Lab/AgentWard
"Our code is available at https://github.com/FIND-Lab/AgentWard"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

FIND-Lab lanza AgentWard, un framework de seguridad de cinco capas para agentes de IA

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.