Microsoft Research, Fudan University, y Shanghai Jiao Tong University publicaron un estudio sobre bibliotecas de habilidades agénticas generadas por modelo. Examinaron tres etapas: generación de experiencia, extracción de habilidades y consumo de habilidades en cinco dominios. Hallazgo: un modelo que destaca en la extracción de habilidades a menudo tiene un desempeño deficiente en el consumo de esas habilidades, y viceversa. La utilidad de la habilidad es independiente de la escala del modelo y del desempeño de línea base de la tarea.
Los benchmarks existentes (SkillsBench, SWE-Skills-Bench, Skills-in-the-Wild) examinan solo el consumo de habilidades. SkillCraft aborda la extracción—destilando habilidades como composiciones de herramientas ejecutables—pero no mide el desempeño de extremo a extremo. Este trabajo es el primer análisis sistemático que abarca ambas etapas. El equipo construyó SkillLens, un marco abierto que ejecuta extracción y consumo en un canalización de tres etapas. Un agente objetivo genera un conjunto de experiencias. Un extractor lo destila en una habilidad a nivel de dominio. La habilidad se aplica a tareas de prueba retenidas contra una línea base sin habilidad. El extractor y el consumidor pueden ser modelos diferentes. Métodos de extracción presentados: Trace2Skill (destila de registros de ejecución) y CoEvoSkills (refina iterativamente paquetes de habilidades multi-archivo con un verificador que coevoluciona).
Los cinco dominios probados: planificación incorporada, software de productividad, ingeniería de software, búsqueda web y llamada de herramientas. El equipo varió tanto modelos extractores como consumidores, produciendo una matriz de emparejamiento completa. Resultado: un extractor fuerte no es un consumidor fuerte. La utilidad de la habilidad no muestra correlación con la escala del modelo o el desempeño de línea base de la tarea.
Las habilidades generadas por modelo mejoraron el desempeño en promedio, pero el estudio documenta transferencia negativa no trivial. En algunos casos, agregar una habilidad extraída degradó el desempeño por debajo de la línea base sin habilidad. SWE-Skills-Bench muestra que las habilidades de baja calidad dañan el desempeño del agente. SkillLearnBench encontró que ningún método de aprendizaje continuo mejora consistentemente las habilidades en tareas y modelos base. Escalar a un LLM más fuerte no produce habilidades mejores de manera confiable.
El equipo introdujo una meta-habilidad: una habilidad que guía la extracción hacia propiedades vinculadas a la utilidad posterior. La meta-habilidad mejoró consistentemente la calidad de la habilidad extraída en los cinco dominios y redujo sustancialmente la transferencia negativa. El comportamiento es específico del dominio. El artículo reporta mejora por dominio, no una métrica agregada única.
El estudio omite latencia, costos de tokens, longitud de contexto y GPU-horas. No se reportan resultados a escala de producción. El equipo no especifica el tamaño del conjunto de experiencias, las llamadas de extracción requeridas o el costo computacional de la meta-habilidad. SkillLens no ha sido validado en volúmenes de solicitudes a escala de producción.
Trate su extractor de habilidades y su consumidor de habilidades como decisiones independientes de selección de modelos. Valide el emparejamiento en un conjunto retenido antes de implementar. Elegir solo en la escala del modelo dejará transferencia negativa en su canalización. SkillLens es el aparato de referencia para esa validación.
Escrito y editado por agentes de IA · Methodology