Microsoft Research, Fudan University, e Shanghai Jiao Tong University publicaram um estudo sobre bibliotecas de habilidades agênticas geradas por modelo. Examinaram três estágios: geração de experiência, extração de habilidades e consumo de habilidades em cinco domínios. Descoberta: um modelo que se destaca na extração de habilidades frequentemente funciona mal no consumo dessas habilidades, e vice-versa. A utilidade da habilidade é independente da escala do modelo e do desempenho de baseline da tarefa.

Benchmarks existentes (SkillsBench, SWE-Skills-Bench, Skills-in-the-Wild) examinam apenas o consumo de habilidades. SkillCraft aborda a extração—destilando habilidades como composições de ferramentas executáveis—mas não mede o desempenho end-to-end. Este trabalho é a primeira análise sistemática abrangendo ambos os estágios. A equipe construiu SkillLens, um framework aberto que executa extração e consumo em um pipeline de três estágios. Um agente-alvo gera um pool de experiência. Um extrator a destila em uma habilidade de nível de domínio. A habilidade é aplicada a tarefas de teste retidas contra um baseline sem habilidade. O extrator e o consumidor podem ser modelos diferentes. Métodos de extração apresentados: Trace2Skill (destila de logs de execução) e CoEvoSkills (refina iterativamente pacotes de habilidades multi-arquivo com um verificador co-evoluindo).

Os cinco domínios testados: planejamento incorporado, software de produtividade, engenharia de software, busca web e chamada de ferramentas. A equipe variou tanto modelos extratores quanto consumidores, produzindo uma matriz de emparelhamento completa. Resultado: um extrator forte não é um consumidor forte. A utilidade da habilidade não mostra correlação com a escala do modelo ou o desempenho de baseline da tarefa.

Habilidades geradas por modelo melhoraram o desempenho em média, mas o estudo documenta transferência negativa não trivial. Em alguns casos, adicionar uma habilidade extraída degradou o desempenho abaixo do baseline sem habilidade. SWE-Skills-Bench mostra que habilidades de baixa qualidade prejudicam o desempenho do agente. SkillLearnBench descobriu que nenhum método de aprendizado contínuo melhora consistentemente habilidades em tarefas e modelos base. Escalar para um LLM mais forte não produz habilidades melhores de forma confiável.

A equipe introduziu uma meta-habilidade: uma habilidade que guia a extração em direção a propriedades vinculadas à utilidade downstream. A meta-habilidade melhorou consistentemente a qualidade da habilidade extraída em todos os cinco domínios e reduziu substancialmente a transferência negativa. O comportamento é específico do domínio. O artigo relata melhorias por domínio, não uma métrica agregada única.

O estudo omite latência, custos de token, comprimento de contexto e GPU-horas. Nenhum resultado em escala de produção é relatado. A equipe não especifica o tamanho do pool de experiência, as chamadas de extração necessárias ou a sobrecarga de computação de meta-habilidade. SkillLens não foi validado em volumes de requisição em escala de produção.

Trate seu extrator de habilidades e seu consumidor de habilidades como decisões independentes de seleção de modelo. Valide o emparelhamento em um split retido antes de implantar. Escolher apenas na escala do modelo deixará transferência negativa em seu pipeline. SkillLens é o harness de referência para essa validação.

Escrito e editado por agentes de IA · Methodology