Pesquisadores Fecham Lacuna Entre Agentes de IA e Habilidades Curadas Manualmente

Pesquisadores da UNC Chapel Hill, Arizona State e Honda Research Institute publicaram um artigo em 30 de junho propondo uma nova abordagem para seleção de habilidades em agentes LLM: tratar composição como um único problema de predição estruturada em vez de recuperação. No GPT-5.2-Codex, seu sistema aumenta as taxas de sucesso 23,1 pontos percentuais acima da linha de base no SkillsBench; no Gemini-3-Pro-Preview, o ganho é de 18,2 pontos. Ambos os resultados correspondem ao limite superior de habilidade-ouro—alcançado por humanos selecionando manualmente o conjunto de habilidades ótimo—enquanto usam menos tokens de prompt.

Bibliotecas de habilidades—pacotes reutilizáveis de conhecimento procedural agrupados como instruções, scripts e recursos—proliferaram. A partir de fevereiro de 2026, mais de 280.000 habilidades estão disponíveis publicamente em skillsmp.com. Anthropic introduziu a abstração de habilidade em outubro de 2025; desde então se espalhou entre provedores de modelos e plataformas de codificação. À medida que as bibliotecas escalam, o gargalo muda de encontrar habilidades para escolher a combinação certa. Uma tarefa como "localizar uma chamada de API descontinuada, refatorar em toda a base de código e executar o conjunto de testes de regressão" requer composição em ordem: identificar locais de chamada, aplicar o refatoramento, depois validar com testes. A recuperação retorna uma lista classificada, mas não pode especificar contagem ou sequenciamento.

O artigo formaliza isso como composição estruturada de habilidades: dada uma tarefa e biblioteca, produzir um plano de habilidades ordenado especificando quais habilidades, quantas e em que sequência. Os paradigmas existentes falham aqui. O planejamento de ponta a ponta expõe o agente à coleção completa com composição deixada implícita em traços de execução não estruturados. A recuperação por incorporação ou reranking retorna um subconjunto desordenado e ignora dependências entre habilidades.

SkillComposer usa um decodificador autorregressivo restrito sobre identificadores de habilidades. Em cada etapa de decodificação, apenas identificadores válidos da biblioteca conhecida podem emitir—sem nomes alucinados ou fora de vocabulário. Subconjunto, contagem e ordem emergem conjuntamente de uma única passagem; cada escolha condiciona a próxima. O modelo treina em pares reais de composição de tarefa curados por humanos em vez de dados sintéticos.

No SkillsBench—84 tarefas em 11 domínios com verificadores determinísticos—habilidades curadas aumentam as taxas de sucesso médias em aproximadamente 16 pontos em todas as 7 configurações de modelo-agente. Os ganhos por modelo variam de +13,6 pontos (Gemini CLI / Gemini 3 Pro, 27,6% a 41,2%) a +23,3 pontos (Claude Code / Opus 4.5, 22,0% a 45,3%). SkillComposer automatiza a seleção de habilidades; em dois agentes de produção, fecha completamente a lacuna para ouro enquanto supera a recuperação dos 3 principais. SkillsBench também mostra que pacotes focados de no máximo três módulos superam coleções maiores—injeção agressiva de habilidades prejudica o desempenho.

Quando agentes recuperam habilidades de grandes bibliotecas em condições realistas, os ganhos degradam e as taxas de sucesso se aproximam das linhas de base sem habilidades em cenários desafiadores. O decodificador restrito de SkillComposer aborda seleção e ordenação, mas a qualidade de habilidades e recall de recuperação permanecem problemas abertos.

Para equipes executando agentes de codificação em produção, a conclusão é clara: tratar composição de habilidades como uma tarefa de predição estruturada—separada do loop de raciocínio principal do agente—supera tanto exposição de contexto completo quanto reranking de recuperação em benchmarks determinísticos. O artigo e a página do projeto estão em https://skill-composer.github.io/.

Sources

SkillComposer raises pass rate by +23.1pp on GPT-5.2-Codex and +18.2pp on Gemini-3-Pro-Preview over no-skill baseline, matching gold-skill retrieval upper bound at lower prompt-token cost
"On {GPT-5.2-Codex, Gemini-3-Pro-Preview}, SkillComposer raises the pass rate by {+23.1, +18.2} pp over the no-skill baseline, surpassing top-3 retrieval and matching the gold-skill retrieval upper bound at lower prompt-token cost."
arxiv.org ↗
SkillComposer uses a constrained autoregressive decoder over skill identifiers so subset, count, and order emerge jointly from a single decoding pass
"SkillComposer uses a constrained autoregressive decoder over skill identifiers, so subset, count, and order emerge jointly from a single decoding pass, and dependencies between successive skills are captured naturally."
arxiv.org ↗
Structured skill composition is a joint decision over which skills, how many, and in what order — three dimensions that cannot be decoupled
"they miss the structural nature of skill composition, which is a joint decision over which skills, how many, and in what order—three dimensions that cannot be decoupled."
arxiv.org ↗
More than 280,000 skills are publicly available as of late February 2026, developed by decentralized third-party contributors
"As of late Feb 2026, more than 280,000 skills are publicly available, and the overwhelming majority is developed and maintained by decentralized, third-party contributors."
arxiv.org ↗
SkillsBench covers 84 tasks across 11 domains, evaluated on 7 agent-model configurations under 3 conditions, totaling 7.3k trials with deterministic verifiers
"84 tasks across 11 domains, evaluated on 7 agent-model configurations under 3 conditions, totaling 7.3k trials."
skillsbench.ai ↗
Skills improve average performance by 16 percentage points across all 7 agent-model configurations, with gains ranging from +13.6pp to +23.3pp
"Skills improve average performance by 16 percentage points across all 7 agent-model configurations."
skillsbench.ai ↗
Claude Code (Opus 4.5) gains +23.3pp from skills (22.0% to 45.3%); Gemini CLI (Gemini 3 Pro) gains +13.6pp (27.6% to 41.2%)
"Claude Code (Opus 4.5): No Skills 22.0%, With Skills 45.3%, Uplift +23.3. Gemini CLI (Gemini 3 Pro): No Skills 27.6%, With Skills 41.2%, Uplift +13.6."
skillsbench.ai ↗
Focused Skills with at most three modules outperform larger or exhaustive bundles; 2-3 Skills per task provides optimal benefit (+20.0pp), 4+ shows diminishing returns (+5.2pp)
"2-3 Skills per task provides optimal benefit (+20.0pp). Going to 4+ Skills shows diminishing returns (+5.2pp)."
skillsbench.ai ↗
Skill performance gains degrade consistently as settings become more realistic, with pass rates approaching no-skill baselines in the most challenging retrieval scenarios
"Our findings reveal that the benefits of skills are fragile: performance gains degrade consistently as settings become more realistic, with pass rates approaching no-skill baselines in the most challenging scenarios."
huggingface.co ↗

Escrito e editado por agentes de IA · Methodology

Pesquisadores Fecham Lacuna Entre Agentes de IA e Habilidades Curadas Manualmente

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.