Escala de Modelo Não Prevê Desempenho de Habilidades Extraídas

Microsoft Research, Fudan University, e Shanghai Jiao Tong University publicaram um estudo sobre bibliotecas de habilidades agênticas geradas por modelo. Examinaram três estágios: geração de experiência, extração de habilidades e consumo de habilidades em cinco domínios. Descoberta: um modelo que se destaca na extração de habilidades frequentemente funciona mal no consumo dessas habilidades, e vice-versa. A utilidade da habilidade é independente da escala do modelo e do desempenho de baseline da tarefa.

Benchmarks existentes (SkillsBench, SWE-Skills-Bench, Skills-in-the-Wild) examinam apenas o consumo de habilidades. SkillCraft aborda a extração—destilando habilidades como composições de ferramentas executáveis—mas não mede o desempenho end-to-end. Este trabalho é a primeira análise sistemática abrangendo ambos os estágios. A equipe construiu SkillLens, um framework aberto que executa extração e consumo em um pipeline de três estágios. Um agente-alvo gera um pool de experiência. Um extrator a destila em uma habilidade de nível de domínio. A habilidade é aplicada a tarefas de teste retidas contra um baseline sem habilidade. O extrator e o consumidor podem ser modelos diferentes. Métodos de extração apresentados: Trace2Skill (destila de logs de execução) e CoEvoSkills (refina iterativamente pacotes de habilidades multi-arquivo com um verificador co-evoluindo).

Os cinco domínios testados: planejamento incorporado, software de produtividade, engenharia de software, busca web e chamada de ferramentas. A equipe variou tanto modelos extratores quanto consumidores, produzindo uma matriz de emparelhamento completa. Resultado: um extrator forte não é um consumidor forte. A utilidade da habilidade não mostra correlação com a escala do modelo ou o desempenho de baseline da tarefa.

Habilidades geradas por modelo melhoraram o desempenho em média, mas o estudo documenta transferência negativa não trivial. Em alguns casos, adicionar uma habilidade extraída degradou o desempenho abaixo do baseline sem habilidade. SWE-Skills-Bench mostra que habilidades de baixa qualidade prejudicam o desempenho do agente. SkillLearnBench descobriu que nenhum método de aprendizado contínuo melhora consistentemente habilidades em tarefas e modelos base. Escalar para um LLM mais forte não produz habilidades melhores de forma confiável.

A equipe introduziu uma meta-habilidade: uma habilidade que guia a extração em direção a propriedades vinculadas à utilidade downstream. A meta-habilidade melhorou consistentemente a qualidade da habilidade extraída em todos os cinco domínios e reduziu substancialmente a transferência negativa. O comportamento é específico do domínio. O artigo relata melhorias por domínio, não uma métrica agregada única.

O estudo omite latência, custos de token, comprimento de contexto e GPU-horas. Nenhum resultado em escala de produção é relatado. A equipe não especifica o tamanho do pool de experiência, as chamadas de extração necessárias ou a sobrecarga de computação de meta-habilidade. SkillLens não foi validado em volumes de requisição em escala de produção.

Trate seu extrator de habilidades e seu consumidor de habilidades como decisões independentes de seleção de modelo. Valide o emparelhamento em um split retido antes de implantar. Escolher apenas na escala do modelo deixará transferência negativa em seu pipeline. SkillLens é o harness de referência para essa validação.

Sources

Joint team from Microsoft Research, Fudan University, and Shanghai Jiao Tong University; code at aka.ms/SkillLens
"Correspondence: yifanyang@microsoft.com, zhengxq@fudan.edu.cn Code: https://aka.ms/SkillLens"
arxiv.org ↗
Five domains covered: embodied planning, productivity software, software engineering, web search, and tool calling
"We instantiate this pipeline across five domains, spanning embodied planning, productivity software, software engineering, web search, and tool calling, and systematically vary the extractor and target."
arxiv.org ↗
Model-generated skills are beneficial on average but exhibit non-trivial negative transfer
"We find that model-generated skills are beneficial on average but exhibit non-trivial negative transfer"
arxiv.org ↗
A model can be a strong extractor yet a weak consumer, or vice versa; skill utility independent of model scale or baseline task strength
"A model can be a strong extractor yet a weak consumer, or vice versa, with skill utility independent of model scale or baseline task strength."
arxiv.org ↗
Meta-skill consistently improves skill quality across domains and substantially reduces negative transfer
"we translate these findings into a concrete meta-skill that guides skill extraction toward the features tied to actual utility, which consistently improves skill quality across domains and substantially reduces negative transfer."
arxiv.org ↗
Prior consumption-only benchmarks are SkillsBench, SWE-Skills-Bench, and Skills-in-the-Wild; SkillCraft is a separate partial attempt at extraction with notable limitations
"Most existing efforts study only the skill consumption stage... SkillsBench uses task-seeded, human-authored skills, while SWE-Skills-Bench and Skills-in-the-Wild draw skills from existing public skill repositories instead—all leaving the skill extraction stage outside the loop."
arxiv.org ↗
Trace2Skill distills skills directly from execution logs; CoEvoSkills iteratively refines multi-file skill packages with a co-evolving verifier
"featured works either directly distilling them from execution logs as in Trace2Skill, or iteratively refining multi-file skill packages with a co-evolving verifier as in CoEvoSkills"
arxiv.org ↗
Extraction framework uses minimal design to reflect the extractor's own ability rather than scaffolding tricks
"an extractor then distills this pool into a single domain-level skill through an extraction framework with minimal design, reflecting the extractor's own ability rather than scaffolding tricks"
arxiv.org ↗
Low-quality skills can significantly degrade agent performance rather than improve it (SWE-Skills-Bench finding)
"SWE-Skills-Bench further demonstrates that low-quality skills can significantly degrade agent performance rather than improve it."
arxiv.org ↗
No continual-learning method for skill generation leads consistently across tasks and LLMs; scaling to stronger LLMs does not reliably help
"all continual learning methods improve over the no-skill baseline, yet consistent gains remain elusive: no method leads across all tasks and LLMs, and scaling to stronger LLMs does not reliably help."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Escala de Modelo Não Prevê Desempenho de Habilidades Extraídas

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.