La Escala del Modelo No Predice el Desempeño de Habilidades Extraídas

Microsoft Research, Fudan University, y Shanghai Jiao Tong University publicaron un estudio sobre bibliotecas de habilidades agénticas generadas por modelo. Examinaron tres etapas: generación de experiencia, extracción de habilidades y consumo de habilidades en cinco dominios. Hallazgo: un modelo que destaca en la extracción de habilidades a menudo tiene un desempeño deficiente en el consumo de esas habilidades, y viceversa. La utilidad de la habilidad es independiente de la escala del modelo y del desempeño de línea base de la tarea.

Los benchmarks existentes (SkillsBench, SWE-Skills-Bench, Skills-in-the-Wild) examinan solo el consumo de habilidades. SkillCraft aborda la extracción—destilando habilidades como composiciones de herramientas ejecutables—pero no mide el desempeño de extremo a extremo. Este trabajo es el primer análisis sistemático que abarca ambas etapas. El equipo construyó SkillLens, un marco abierto que ejecuta extracción y consumo en un canalización de tres etapas. Un agente objetivo genera un conjunto de experiencias. Un extractor lo destila en una habilidad a nivel de dominio. La habilidad se aplica a tareas de prueba retenidas contra una línea base sin habilidad. El extractor y el consumidor pueden ser modelos diferentes. Métodos de extracción presentados: Trace2Skill (destila de registros de ejecución) y CoEvoSkills (refina iterativamente paquetes de habilidades multi-archivo con un verificador que coevoluciona).

Los cinco dominios probados: planificación incorporada, software de productividad, ingeniería de software, búsqueda web y llamada de herramientas. El equipo varió tanto modelos extractores como consumidores, produciendo una matriz de emparejamiento completa. Resultado: un extractor fuerte no es un consumidor fuerte. La utilidad de la habilidad no muestra correlación con la escala del modelo o el desempeño de línea base de la tarea.

Las habilidades generadas por modelo mejoraron el desempeño en promedio, pero el estudio documenta transferencia negativa no trivial. En algunos casos, agregar una habilidad extraída degradó el desempeño por debajo de la línea base sin habilidad. SWE-Skills-Bench muestra que las habilidades de baja calidad dañan el desempeño del agente. SkillLearnBench encontró que ningún método de aprendizaje continuo mejora consistentemente las habilidades en tareas y modelos base. Escalar a un LLM más fuerte no produce habilidades mejores de manera confiable.

El equipo introdujo una meta-habilidad: una habilidad que guía la extracción hacia propiedades vinculadas a la utilidad posterior. La meta-habilidad mejoró consistentemente la calidad de la habilidad extraída en los cinco dominios y redujo sustancialmente la transferencia negativa. El comportamiento es específico del dominio. El artículo reporta mejora por dominio, no una métrica agregada única.

El estudio omite latencia, costos de tokens, longitud de contexto y GPU-horas. No se reportan resultados a escala de producción. El equipo no especifica el tamaño del conjunto de experiencias, las llamadas de extracción requeridas o el costo computacional de la meta-habilidad. SkillLens no ha sido validado en volúmenes de solicitudes a escala de producción.

Trate su extractor de habilidades y su consumidor de habilidades como decisiones independientes de selección de modelos. Valide el emparejamiento en un conjunto retenido antes de implementar. Elegir solo en la escala del modelo dejará transferencia negativa en su canalización. SkillLens es el aparato de referencia para esa validación.

Sources

Joint team from Microsoft Research, Fudan University, and Shanghai Jiao Tong University; code at aka.ms/SkillLens
"Correspondence: yifanyang@microsoft.com, zhengxq@fudan.edu.cn Code: https://aka.ms/SkillLens"
arxiv.org ↗
Five domains covered: embodied planning, productivity software, software engineering, web search, and tool calling
"We instantiate this pipeline across five domains, spanning embodied planning, productivity software, software engineering, web search, and tool calling, and systematically vary the extractor and target."
arxiv.org ↗
Model-generated skills are beneficial on average but exhibit non-trivial negative transfer
"We find that model-generated skills are beneficial on average but exhibit non-trivial negative transfer"
arxiv.org ↗
A model can be a strong extractor yet a weak consumer, or vice versa; skill utility independent of model scale or baseline task strength
"A model can be a strong extractor yet a weak consumer, or vice versa, with skill utility independent of model scale or baseline task strength."
arxiv.org ↗
Meta-skill consistently improves skill quality across domains and substantially reduces negative transfer
"we translate these findings into a concrete meta-skill that guides skill extraction toward the features tied to actual utility, which consistently improves skill quality across domains and substantially reduces negative transfer."
arxiv.org ↗
Prior consumption-only benchmarks are SkillsBench, SWE-Skills-Bench, and Skills-in-the-Wild; SkillCraft is a separate partial attempt at extraction with notable limitations
"Most existing efforts study only the skill consumption stage... SkillsBench uses task-seeded, human-authored skills, while SWE-Skills-Bench and Skills-in-the-Wild draw skills from existing public skill repositories instead—all leaving the skill extraction stage outside the loop."
arxiv.org ↗
Trace2Skill distills skills directly from execution logs; CoEvoSkills iteratively refines multi-file skill packages with a co-evolving verifier
"featured works either directly distilling them from execution logs as in Trace2Skill, or iteratively refining multi-file skill packages with a co-evolving verifier as in CoEvoSkills"
arxiv.org ↗
Extraction framework uses minimal design to reflect the extractor's own ability rather than scaffolding tricks
"an extractor then distills this pool into a single domain-level skill through an extraction framework with minimal design, reflecting the extractor's own ability rather than scaffolding tricks"
arxiv.org ↗
Low-quality skills can significantly degrade agent performance rather than improve it (SWE-Skills-Bench finding)
"SWE-Skills-Bench further demonstrates that low-quality skills can significantly degrade agent performance rather than improve it."
arxiv.org ↗
No continual-learning method for skill generation leads consistently across tasks and LLMs; scaling to stronger LLMs does not reliably help
"all continual learning methods improve over the no-skill baseline, yet consistent gains remain elusive: no method leads across all tasks and LLMs, and scaling to stronger LLMs does not reliably help."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

La Escala del Modelo No Predice el Desempeño de Habilidades Extraídas

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.