Grab Trata Agentes Autónomos como No Confiables por Diseño

El equipo de ciberseguridad de Grab lanzó Palana, una plataforma segura de ejecución nativa de Kubernetes para agentes de IA autónomos ejecutando cientos de cargas de trabajo concurrentes a través de las operaciones de ride-hailing, pagos y logística de la empresa en 900 ciudades en ocho países. La plataforma surgió después de prototipar entornos para OpenClaw y otros frameworks de agentes. El equipo concluyó que la configuración ad-hoc de contenedores no podía responder preguntas difíciles: en nombre de quién actúa un agente, qué credenciales puede usar y cómo lo detienes sin confiar en que coopere?

El modelo de amenaza es explícito: los agentes que ejecutan herramientas arbitrarias, llaman APIs y escriben código tienen perfiles de riesgo fundamentalmente diferentes de los servicios sin estado. La inyección de prompts, el secuestro de lógica, el compromiso de dependencias, la búsqueda excesiva de objetivos y la exposición de credenciales están dentro del alcance. La defensa central de Palana es el aislamiento de namespaces. Cada agente se ejecuta en su propio namespace de Kubernetes aprovisionado con RBAC restrictivo, cuotas de recursos, políticas de red personalizadas y cuentas de servicio aisladas. Un operador de Kubernetes reconcilia el ciclo de vida completo—namespaces, almacenamiento, ingress y políticas de red—desde una definición de recurso personalizado. Los desarrolladores interactúan a través de una CLI llamada pcli o un portal de autoservicio. Los ingenieros de plataforma trabajan directamente con objetos estándar de Kubernetes.

El manejo de secretos marca la desviación más marcada de Palana de los flujos de trabajo típicos de contenedores. Pasar credenciales a través de variables de entorno o archivos montados es inaceptable para agentes autónomos. Palana usa secretos solo proxy en su lugar: credenciales sensibles—tokens de control de versiones, claves API de puerta de enlace de modelo, tokens GrabGPT por agente—permanecen en HashiCorp Vault y nunca llegan al contenedor del agente. Los agentes reciben solo tokens de marcador de posición abstractos. Cuando un agente inicia una llamada saliente, un proxy seguro intercepta la solicitud, valida el destino y reemplaza el marcador de posición con la credencial activa. El secreto sin procesar nunca llega al entorno, memoria de ejecución o logs del contenedor.

El egreso es un punto de control centralizado. Todo el tráfico HTTP y HTTPS saliente se enruta a través de Envoy, que llama a un sidecar ext-authz ejecutando reglas de Open Policy Agent para identificar el pod que llama, evaluar políticas y registrar la solicitud. Para HTTPS, Palana realiza terminación MITM usando una CA que distribuye a pods de agentes. Esto permite inspección completa de headers y validación de endpoints en tráfico encriptado—algo que las políticas de red de Kubernetes por sí solas no pueden proporcionar. Los logs de auditoría estructurados son la superficie principal de análisis forense posterior al incidente.

Los botones de parada operan fuera del límite de confianza del agente. Pedir a un agente que se detenga es una función, no un control de seguridad. Un agente comprometido o confundido no puede ser confiable para auto-terminarse. Los botones de parada de Palana se ejecutan en el plano de control: las políticas de red se deshabilitan directamente desde fuera del runtime, y un reaper externo maneja los apagados inactivos sin tocar el proceso del agente. Los agentes también obtienen almacenamiento persistente /data, por lo que los flujos de trabajo de larga duración—Hermes, Matlock, Butler, automatizaciones cts-aergia Slack—sobreviven a reinicios de contenedores sin perder estado de sesión o contexto de memoria.

La huella de producción cubre OpenClaw y cargas de trabajo de prueba de agent-framework, Claude Code y ambientes de desarrollo en la nube accesibles por navegador OpenCode, agentes conectados a Slack incluyendo cts-aergia y flujos de trabajo Claude-to-Slack, y sistemas de orden superior donde supervisores agentic enrutan el trabajo a agentes secundarios con alcance definido. Grab está planeando un segundo post cubriendo elementos internos de orquestación del ciclo de vida, enrutamiento de LLM y herramientas de visibilidad operacional.

El principio de diseño clave: cada control de seguridad debe vivir fuera del límite de confianza del agente. La inyección de credenciales, la terminación de red y los botones de parada se ejecutan en infraestructura que el agente no puede alcanzar o modificar. Esta restricción descarta una gran clase de rutas de compromiso. También significa que el operador de Kubernetes debe poseer el ciclo de vida completo del agente, y cada nueva capacidad de agente requiere una affordance explícita de plataforma en lugar de una solución temporal.

Sources

Palana is a Kubernetes-native secure execution platform implementing deterministic guardrails around model-driven applications, built after prototyping environments for Claw and other agent frameworks
"Palana acts as a secure, isolated runtime environment that implements deterministic guardrails around the inherently non-deterministic behaviors of model-driven applications."
infoq.com ↗
Palana is currently running hundreds of agents in production including OpenClaw workers, Hermes agents, Slack automations, and remote development environments
"It is currently used to run hundreds of agents, including remote development environments, Slack automation, OpenClaw workers, Hermes agents, and other long-running internal systems."
engineering.grab.com ↗
Grab serves over 900 cities across eight countries in Southeast Asia
"Grab is Southeast Asia's leading superapp, serving over 900 cities across eight countries (Cambodia, Indonesia, Malaysia, Myanmar, the Philippines, Singapore, Thailand, and Vietnam)."
engineering.grab.com ↗
Each agent is assigned its own dedicated Kubernetes namespace with RBAC, resource quotas, network policy, and isolated service accounts
"Palana achieves this by assigning each agent to its own dedicated Kubernetes namespace configured with restrictive Role-Based Access Control, custom network policies, and isolated service accounts."
infoq.com ↗
Sensitive credentials including PATs and model gateway API keys remain in HashiCorp Vault; agents only receive placeholder tokens that are swapped by a proxy at call time
"Highly sensitive credentials, such as version control personal access tokens and model gateway API keys, remain secured within HashiCorp Vault. The agent container is only provisioned with abstract, dummy placeholder tokens."
infoq.com ↗
All egress routes through Envoy plus an ext-authz proxy running Open Policy Agent rules, with MITM certificate termination for HTTPS traffic
"External HTTP and HTTPS traffic flows through Envoy. Envoy asks ext-authz-proxy to identify the calling pod, evaluate policy with OPA, log the request, and optionally inject credentials. HTTPS traffic can be terminated by the proxy's man-in-the-middle (MITM) listener for header inspection and replacement."
engineering.grab.com ↗
Kill switches operate at the network-policy level from the control plane, not by signalling the agent process — because a compromised agent cannot be trusted to self-terminate
"A kill switch that asks the agent to stop is a feature. A kill switch that removes the agent's network path is a safety control. Palana assumes an agent might become confused, compromised, or uncooperative. Operational controls therefore live outside the agent process."
engineering.grab.com ↗
LLM access is provided through a LiteLLM wrapper that injects per-agent GrabGPT credentials from Vault
"LLM access through a LiteLLM wrapper that injects per-agent GrabGPT credentials from Vault."
engineering.grab.com ↗
Each agent is modeled as a custom Kubernetes resource reconciled by a custom operator; developers use pcli or a portal while systems engineers work with native Kubernetes objects
"Each agent is modeled as a custom resource reconciled by a custom Kubernetes operator that dynamically provisions namespaces, storage, network policies, and ingress paths. This design splits the operational experience into a simplified user interface and command-line tool for developers, and a robust, standard Kubernetes layer for systems engineers."
infoq.com ↗

Escrito y editado por agentes de IA · Methodology

Grab Trata Agentes Autónomos como No Confiables por Diseño

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.