IBM CUGA alcanza #1 en benchmarks con una API de 4 argumentos

IBM Research publicó cuga-apps el 23 de junio de 2026: 24 aplicaciones FastAPI de archivo único, cada una envolviendo un CugaAgent. Los casos de uso van desde un recomendador de películas hasta un asesor de arquitectura IBM Cloud. Cada archivo fue diseñado para ser leído y forkeado. El framework subyacente —CUGA (Configurable Generalist Agent, `pip install cuga`)— mantuvo #1 en AppWorld (750 tareas del mundo real en 457 APIs) de julio de 2025 a febrero de 2026, y encabezó WebArena de febrero a septiembre de 2025.

Un CugaAgent toma cuatro argumentos: una factory de modelo, una lista de herramientas, una cadena special_instructions y una ruta cuga_folder. Llama a `await agent.invoke(...)` y el harness maneja planeación, ciclo de ejecución, dispatch de herramientas, rastreo de estado entre pasos, y un pase de reflexión que captura llamadas de herramienta malas y replantea sin exponer el fallo. En una tarea de 20 pasos, la mayoría de las implementaciones de agente pierden el rastro de resultados intermedios y los re-derivan incorrectamente en el siguiente turno. CUGA mantiene estado a través de un administrador de variables en la capa de orquestración.

La vinculación de herramientas es uniforme en todas las fuentes. Las specs OpenAPI, los servidores MCP y las funciones decoradas de LangChain se adjuntan de la misma manera. Cada cuga-app se divide: las capacidades genéricas (búsqueda web, operaciones de archivo) se cargan desde servidores MCP compartidos vía `load_tools(["web"])`; la lógica específica del dominio vive como Python inline en el mismo archivo. La aplicación asesor IBM Cloud define `search_ibm_catalog` como una función decorada con `@tool` que golpea la IBM Cloud Global Catalog API, luego mezcla herramientas web de un servidor MCP—dos líneas para conectar ambas.

CUGA expone tres modos de razonamiento—Fast, Balanced, Accurate—seleccionados desde configuración, no desde código. La misma definición de agente se ejecuta en los tres. La mayoría de los harnesses incrustan el tradeoff costo/desempeño en la implementación del agente; cambiarlo requiere reescritura. Aquí es una clave de configuración. Los sandboxes de código siguen el mismo patrón: local, Docker/Podman, o E2B cloud, intercambiados sin tocar la lógica del agente.

La galería cuga-apps alojada se ejecuta en gpt-oss-120b servido vía Groq, no una API frontier. Los modelos abiertos cuestan 80–90% menos que las alternativas cerradas según la estimación de IBM. La inferencia basada en LPU de Groq mantiene la latencia por paso lo suficientemente baja para que las tareas de 20 pasos no se compongan en tiempos de muro inutilizables. Llama-4-Maverick-17B-128E-Instruct-fp8 es el segundo modelo probado en el entorno alojado.

La gobernanza se configura, no se codifica. Los archivos de políticas son documentos Markdown en `.cuga/` bajo la carpeta del proyecto. CUGA los inyecta en las etapas distintas de la capa de orquestración—planeación de API, ejecución de código, reflexión, acortamiento de herramientas, descomposición de tareas—cada una expuesta como clave explícita en settings.toml. Cinco tipos de política están disponibles: Intent Guard, Playbook, Tool Approval, Tool Guide, Output Formatter. Habilita puertas human-in-the-loop vía `api_planner_hitl = true` en settings.toml. La misma definición de agente que se ejecuta en dev se ejecuta en producción gobernada—sin reescritura, sin rama.

La ruta multiagente utiliza el protocolo A2A. Un SDK Supervisor permite que un único coordinador dispatch trabajo a múltiples CugaAgents. Los workflows de Supervisor se definen en YAML. Agent Skills—workflows de dominio empaquetados como archivos SKILL.md con frontmatter—se descubren y se cargan bajo demanda vía llamada de herramienta `load_skill`, manteniendo el prompt del agente base delgado. La integración Langflow agrega una capa de UI drag-and-drop para cableado visual de agentes.

Haz fork de una de las 24 aplicaciones, intercambia la lista de herramientas y el prompt del sistema por los tuyos, y tienes un agente en ruta de producción con reflexión, hooks de gobernanza y portabilidad de proveedor ya conectados.

Sources

cuga-apps ships 24 single-file FastAPI apps, each wrapping one CugaAgent, from a movie recommender to an IBM Cloud architecture advisor
"we built cuga-apps: two dozen small, working apps, each a single FastAPI file wrapping one CugaAgent, from a movie recommender to an IBM Cloud architecture advisor"
huggingface.co ↗
CUGA held #1 on AppWorld (750 real-world tasks, 457 APIs) from 07/25–02/26 and topped WebArena from 02/25–09/25
"long-horizon planning with variable management and self-correction (the machinery behind #1 on AppWorld from 07/25 - 02/26 and WebArena from 02/25 - 09/25)"
huggingface.co ↗
A CugaAgent takes four arguments: model, tools, special_instructions, cuga_folder — then await agent.invoke()
"build a CugaAgent with a tool list and a prompt, then await agent.invoke(...). Everything below that line is the harness."
huggingface.co ↗
Three reasoning modes — Fast, Balanced, Accurate — selected from config, not code; same agent definition, different dial
"You also set the cost/latency tradeoff from config rather than code: Fast, Balanced, and Accurate reasoning modes, with code execution in whatever sandbox you trust (local, Docker/Podman, or E2B cloud). Same agent definition, different dial."
huggingface.co ↗
The hosted cuga-apps gallery runs on gpt-oss-120b (open-weight) via Groq, not a frontier API
"It's why the hosted apps run on gpt-oss-120b rather than a frontier API."
huggingface.co ↗
Open models run 80–90% cheaper than closed alternatives; Groq LPU inference keeps latency low for multi-step tasks
"open models are ~80-90% cheaper than closed alternatives; Groq's OpenAI-compatible APIs meet production latency needs"
huggingface.co ↗
gpt-oss-120b and Llama-4-Maverick-17B-128E-Instruct-fp8 tested in hosted environment, both on Groq
"CUGA has been tested with a variety of open models, including gpt-oss-120b and Llama-4-Maverick-17B-128E-Instruct-fp8 (both hosted on Groq)."
huggingface.co ↗
5 policy types: Intent Guard, Playbook, Tool Approval, Tool Guide, Output Formatter; human-in-the-loop approval gates for enterprise contexts
"Policy System — Configure agent behavior with 5 policy types (Intent Guard, Playbook, Tool Approval, Tool Guide, Output Formatter) via the Python SDK or standalone UI in demo mode. Includes human-in-the-loop approval gates for safe agent behavior in enterprise contexts."
github.com ↗
api_planner_hitl = true in settings.toml enables human-in-the-loop gates; default is false
"api_planner_hitl = false"
github.com ↗
Supervisor SDK dispatches work to multiple CugaAgents over A2A; workflows defined in YAML
"Supervisor SDK — Run multiple CUGA agents. A supervisor coordinates sub-agents over the A2A protocol so you can build multi-agent workflows without custom orchestration. YAML configuration — Define supervisor workflows and sub-agent configs in YAML."
github.com ↗
CUGA architecture: Plan Controller Agent decomposes intents into sub-tasks delegated to specialized Plan-Execute Agents with short-term memory and reflection
"At its core is a Plan Controller Agent that decomposes user intents into structured sub-tasks, tracks their execution states, and orchestrates workflows. These sub-tasks are delegated to specialized Plan-Execute Agents — browser agents for API agents for structured application calls, and custom agents — each equipped with short-term memory, reflection mechanisms, and variable management."
research.ibm.com ↗

Escrito y editado por agentes de IA · Methodology

IBM CUGA alcanza #1 en benchmarks con una API de 4 argumentos

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.