Agentes de IA Pueden Acceder a Cualquier Aplicación Desktop Sin APIs

AWS lanzó Amazon WorkSpaces como servicio de desktop administrado para agentes de IA, habilitándolos para operar aplicaciones heredadas a través de visión por computadora y simulación de entrada. Esto segmenta el 75% de las organizaciones que ejecutan aplicaciones heredadas sin APIs modernas y el 71% de las empresas Fortune 500 cuyos procesos críticos se ejecutan en sistemas mainframe sin acceso programático.

Un agente se autentica a través de IAM, se conecta a una instancia de WorkSpaces a través de una URL prefirmada, e interactúa con el software como lo haría un humano: tomando capturas de pantalla, haciendo clic, escribiendo y desplazándose. La aplicación destino no ve diferencia entre entrada humana y de agente. AWS demostró esto con un agente Strands construido en Amazon Bedrock ejecutando un flujo de trabajo de renovación de receta en un sistema de farmacia de muestra—localizando registros de pacientes, buscando medicamentos, colocando pedidos y confirmando renovaciones—sin una sola llamada de API.

WorkSpaces expone un extremo MCP administrado que funciona con cualquier capa de orquestación que hable el Protocolo de Contexto de Modelos: LangChain, CrewAI, Strands Agents. Sin integración personalizada requerida.

La seguridad hereda controles de WorkSpaces empresariales. Los agentes se ejecutan en instancias de WorkSpaces aisladas, no en máquinas locales o redes internas. CloudTrail registra toda la actividad. CloudWatch proporciona observabilidad. AWS recomienda asignar a cada agente una identidad IAM única para distinguir la actividad del agente de las sesiones humanas. La resolución del escritorio, el formato de imagen y los conjuntos de capacidades del agente son configurables por stack.

Chris Noon, director en Nuvens Consulting, dijo: "WorkSpaces permite que nuestros clientes den a los agentes de IA el mismo entorno de escritorio seguro y gobernado que sus empleados ya usan. Sin integraciones de API personalizadas, pistas de auditoría completas y aislamiento de nivel empresarial listos para usar."

Los agentes de visión son caros en relación con los agentes de API. Reflex publicó datos de benchmark mostrando que un agente de visión consumió 500.000 tokens de entrada para completar una tarea que un agente de API manejó en 12.000 tokens—una diferencia de 45x. El agente de visión tardó 17 minutos versus 20 segundos. Palash Awasthi, jefe de crecimiento de Reflex, señaló que los mejores modelos de visión reducen errores pero no reducen la cantidad de capturas de pantalla necesarias para alcanzar datos relevantes. AWS argumenta que cuando una aplicación heredada no tiene API, un agente 45x más costoso puede ser más barato que años de modernización.

Las instancias de WorkSpaces se encienden para una tarea específica y se terminan cuando se completa, evitando infraestructura siempre activa. Microsoft está persiguiendo el mismo modelo con Windows 365 para agentes de IA, señalando que los escritorios en la nube como runtime de agente se están convirtiendo en una categoría de producto distinta.

El acceso de agente de WorkSpaces está en vista previa en US East (N. Virginia, Ohio), US West (Oregon), Canada (Central), Europe (Frankfurt, Ireland, Paris, London) y Asia Pacific (Tokyo, Mumbai, Sydney, Seoul, Singapore). El código de muestra está disponible en un repositorio público de GitHub. Las empresas con implementaciones de cliente pesado y ERP ahora tienen una ruta de integración concreta.

Sources

75% of organizations run legacy applications that lack modern APIs, per a 2024 Gartner report
"According to a 2024 Gartner report, 75% of organizations run legacy applications that lack modern APIs"
infoq.com ↗
71% of Fortune 500 companies operate critical processes on mainframe systems without adequate programmatic access
"71% of Fortune 500 companies operate critical processes on mainframe systems without adequate programmatic access"
infoq.com ↗
Agent authenticates through IAM, connects to WorkSpaces via a unique pre-signed URL, and interacts via screenshots, clicks, typing, and scrolling
"The agent authenticates through IAM, connects to a WorkSpaces instance at a unique pre-signed URL, and interacts with applications by taking screenshots (computer vision), clicking, typing, and scrolling (computer input)."
infoq.com ↗
AWS demonstrated a Strands agent on Amazon Bedrock handling a prescription refill workflow without an API
"AWS demonstrated the capability with a Strands agent built on Amazon Bedrock handling a prescription refill workflow inside a sample pharmacy system: looking up the patient record, searching for the medication, placing the order, and confirming the refill, all without an API."
infoq.com ↗
WorkSpaces exposes a managed MCP endpoint compatible with LangChain, CrewAI, and Strands Agents
"WorkSpaces exposes a managed MCP endpoint, meaning any agent framework that speaks MCP, including LangChain, CrewAI, and Strands Agents, can connect."
infoq.com ↗
Chris Noon, director at Nuvens Consulting, quoted on regulated-industry value
"WorkSpaces lets our clients give AI agents the same secure, governed desktop environment their employees already use. No custom API integrations, full audit trails, and enterprise-grade isolation out of the box. For regulated industries, that's not a nice-to-have, it's the baseline."
infoq.com ↗
Reflex benchmark: vision agent used ~500,000 input tokens vs 12,000 for an API agent — a 45x cost difference
"Reflex, an AI coding company, recently published benchmark research showing that a vision agent consumed roughly 500,000 input tokens to complete a task that an API agent handled in 12,000 tokens, a 45x cost difference."
infoq.com ↗
Vision agent took 17 minutes vs 20 seconds for the API path in Reflex benchmarks
"The vision agent also took 17 minutes compared to 20 seconds for the API path."
infoq.com ↗
Better vision models reduce error rates per screenshot but do not reduce the number of screenshots required
"Better vision models reduce error rates per screenshot, but they do not reduce the number of screenshots required to reach the relevant data."
infoq.com ↗
WorkSpaces agent access available in preview across multiple AWS regions including US East, US West, Canada, Europe, and Asia Pacific
"WorkSpaces agent access is available in preview in US East (N. Virginia, Ohio), US West (Oregon), Canada (Central), Europe (Frankfurt, Ireland, Paris, London), and Asia Pacific (Tokyo, Mumbai, Sydney, Seoul, Singapore)."
infoq.com ↗
Microsoft is pursuing a parallel approach with Windows 365 for AI agents
"Microsoft is pursuing a similar approach with Windows 365 for AI agents, creating a parallel category of cloud desktop services in which AI systems operate software through the UI rather than APIs."
infoq.com ↗

Escrito y editado por agentes de IA · Methodology

Agentes de IA Pueden Acceder a Cualquier Aplicación Desktop Sin APIs

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.