IBM CUGA atinge #1 em benchmarks com uma API de 4 argumentos

IBM Research publicou cuga-apps em 23 de junho de 2026: 24 aplicações FastAPI em arquivo único, cada uma envolvendo um CugaAgent. Casos de uso variam de um recomendador de filmes até um consultor de arquitetura IBM Cloud. Cada arquivo foi projetado para ser lido e forkado. O framework subjacente — CUGA (Configurable Generalist Agent, `pip install cuga`) — manteve #1 no AppWorld (750 tarefas do mundo real em 457 APIs) de julho de 2025 até fevereiro de 2026, e liderou WebArena de fevereiro até setembro de 2025.

Um CugaAgent leva quatro argumentos: uma factory de modelo, uma lista de ferramentas, uma string special_instructions e um caminho cuga_folder. Chame `await agent.invoke(...)` e o harness manipula planejamento, loop de execução, dispatch de ferramenta, rastreamento de estado entre etapas, e um passe de reflexão que captura chamadas de ferramenta ruins e replaneja sem superficializar a falha. Em uma tarefa de 20 passos, a maioria das implementações de agent perde o rastro dos resultados intermediários e os re-deriva incorretamente no próximo turno. CUGA mantém estado através de um gerenciador de variáveis na camada de orquestração.

A vinculação de ferramentas é uniforme em todas as fontes. Specs OpenAPI, servidores MCP e funções LangChain decoradas se anexam da mesma forma. Cada cuga-app se divide: capacidades genéricas (busca na web, operações de arquivo) carregam de servidores MCP compartilhados via `load_tools(["web"])`; lógica específica do domínio vive como Python inline no mesmo arquivo. O app consultor IBM Cloud define `search_ibm_catalog` como uma função decorada com `@tool` que atinge a IBM Cloud Global Catalog API, depois mistura ferramentas da web de um servidor MCP—duas linhas para conectar ambas.

CUGA expõe três modos de raciocínio—Fast, Balanced, Accurate—selecionados de config, não de código. A mesma definição de agent funciona em todos os três. A maioria dos harnesses integra o tradeoff custo/performance na implementação do agent; mudar requer reescrita. Aqui é uma chave de config. Sandboxes de código seguem o mesmo padrão: local, Docker/Podman, ou E2B cloud, trocados sem tocar na lógica do agent.

A galeria cuga-apps hospedada roda em gpt-oss-120b servido via Groq, não uma API frontier. Modelos abertos custam 80–90% menos que alternativas fechadas pela estimativa da IBM. A inferência baseada em LPU do Groq mantém latência por-passo baixa o suficiente para que tarefas de 20-passos não se compusessem em tempos de parede inutilizáveis. Llama-4-Maverick-17B-128E-Instruct-fp8 é o segundo modelo testado no ambiente hospedado.

Governança é configurada, não codificada. Arquivos de política são documentos Markdown em `.cuga/` sob a pasta do projeto. CUGA os injeta nas fases distintas da camada de orquestração—planejamento de API, execução de código, reflexão, atalho de ferramenta, decomposição de tarefa—cada uma superficializada como chave explícita em settings.toml. Cinco tipos de política estão disponíveis: Intent Guard, Playbook, Tool Approval, Tool Guide, Output Formatter. Habilite portas human-in-the-loop via `api_planner_hitl = true` em settings.toml. A mesma definição de agent que roda em dev roda em produção governada—sem reescrita, sem branch.

O caminho multi-agent usa o protocolo A2A. Um Supervisor SDK permite que um único coordenador dispatch trabalho para múltiplos CugaAgents. Workflows do Supervisor são definidos em YAML. Agent Skills—workflows de domínio empacotados como arquivos SKILL.md com frontmatter—são descobertos e carregados sob demanda via chamada de ferramenta `load_skill`, mantendo o prompt do agent base magro. Integração Langflow adiciona uma camada UI drag-and-drop para wiring visual de agents.

Fork um dos 24 apps, troque a lista de ferramentas e o prompt do sistema pelo seu domínio, e você tem um agent em caminho de produção com reflexão, hooks de governança, e portabilidade de provedor já conectados.

Sources

cuga-apps ships 24 single-file FastAPI apps, each wrapping one CugaAgent, from a movie recommender to an IBM Cloud architecture advisor
"we built cuga-apps: two dozen small, working apps, each a single FastAPI file wrapping one CugaAgent, from a movie recommender to an IBM Cloud architecture advisor"
huggingface.co ↗
CUGA held #1 on AppWorld (750 real-world tasks, 457 APIs) from 07/25–02/26 and topped WebArena from 02/25–09/25
"long-horizon planning with variable management and self-correction (the machinery behind #1 on AppWorld from 07/25 - 02/26 and WebArena from 02/25 - 09/25)"
huggingface.co ↗
A CugaAgent takes four arguments: model, tools, special_instructions, cuga_folder — then await agent.invoke()
"build a CugaAgent with a tool list and a prompt, then await agent.invoke(...). Everything below that line is the harness."
huggingface.co ↗
Three reasoning modes — Fast, Balanced, Accurate — selected from config, not code; same agent definition, different dial
"You also set the cost/latency tradeoff from config rather than code: Fast, Balanced, and Accurate reasoning modes, with code execution in whatever sandbox you trust (local, Docker/Podman, or E2B cloud). Same agent definition, different dial."
huggingface.co ↗
The hosted cuga-apps gallery runs on gpt-oss-120b (open-weight) via Groq, not a frontier API
"It's why the hosted apps run on gpt-oss-120b rather than a frontier API."
huggingface.co ↗
Open models run 80–90% cheaper than closed alternatives; Groq LPU inference keeps latency low for multi-step tasks
"open models are ~80-90% cheaper than closed alternatives; Groq's OpenAI-compatible APIs meet production latency needs"
huggingface.co ↗
gpt-oss-120b and Llama-4-Maverick-17B-128E-Instruct-fp8 tested in hosted environment, both on Groq
"CUGA has been tested with a variety of open models, including gpt-oss-120b and Llama-4-Maverick-17B-128E-Instruct-fp8 (both hosted on Groq)."
huggingface.co ↗
5 policy types: Intent Guard, Playbook, Tool Approval, Tool Guide, Output Formatter; human-in-the-loop approval gates for enterprise contexts
"Policy System — Configure agent behavior with 5 policy types (Intent Guard, Playbook, Tool Approval, Tool Guide, Output Formatter) via the Python SDK or standalone UI in demo mode. Includes human-in-the-loop approval gates for safe agent behavior in enterprise contexts."
github.com ↗
api_planner_hitl = true in settings.toml enables human-in-the-loop gates; default is false
"api_planner_hitl = false"
github.com ↗
Supervisor SDK dispatches work to multiple CugaAgents over A2A; workflows defined in YAML
"Supervisor SDK — Run multiple CUGA agents. A supervisor coordinates sub-agents over the A2A protocol so you can build multi-agent workflows without custom orchestration. YAML configuration — Define supervisor workflows and sub-agent configs in YAML."
github.com ↗
CUGA architecture: Plan Controller Agent decomposes intents into sub-tasks delegated to specialized Plan-Execute Agents with short-term memory and reflection
"At its core is a Plan Controller Agent that decomposes user intents into structured sub-tasks, tracks their execution states, and orchestrates workflows. These sub-tasks are delegated to specialized Plan-Execute Agents — browser agents for API agents for structured application calls, and custom agents — each equipped with short-term memory, reflection mechanisms, and variable management."
research.ibm.com ↗

Escrito e editado por agentes de IA · Methodology

IBM CUGA atinge #1 em benchmarks com uma API de 4 argumentos

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.