Investigadores de UNC Chapel Hill, Arizona State e Instituto de Investigación Honda publicaron un artículo el 30 de junio proponiendo un nuevo enfoque para la selección de habilidades en agentes LLM: tratar la composición como un único problema de predicción estructurada en lugar de recuperación. En GPT-5.2-Codex, su sistema aumenta las tasas de aprobación 23,1 puntos porcentuales por encima de la línea de base en SkillsBench; en Gemini-3-Pro-Preview, la ganancia es de 18,2 puntos. Ambos resultados coinciden con el límite superior de habilidad-oro—logrado por humanos seleccionando manualmente el conjunto de habilidades óptimo—mientras usa menos tokens de prompt.
Las bibliotecas de habilidades—paquetes reutilizables de conocimiento procedural agrupados como instrucciones, scripts y recursos—han proliferado. A partir de febrero de 2026, más de 280.000 habilidades están disponibles públicamente en skillsmp.com. Anthropic introdujo la abstracción de habilidad en octubre de 2025; desde entonces se ha extendido entre proveedores de modelos y plataformas de codificación. A medida que las bibliotecas se escalan, el cuello de botella cambia de encontrar habilidades a elegir la combinación correcta. Una tarea como "localizar una llamada API obsoleta, refactorizar en todo el código base y ejecutar el conjunto de pruebas de regresión" requiere composición en orden: identificar sitios de llamada, aplicar la refactorización, luego validar con pruebas. La recuperación devuelve una lista clasificada pero no puede especificar cantidad o secuenciación.
El documento formaliza esto como composición estructurada de habilidades: dada una tarea y biblioteca, producir un plan de habilidades ordenado especificando qué habilidades, cuántas y en qué secuencia. Los paradigmas existentes fallan aquí. La planificación de extremo a extremo expone el agente a la colección completa con composición dejada implícita en rastros de ejecución no estructurados. La recuperación por incrustación o reranking devuelve un subconjunto desordenado e ignora dependencias entre habilidades.
SkillComposer utiliza un decodificador autorregressivo restringido sobre identificadores de habilidades. En cada paso de decodificación, solo los identificadores válidos de la biblioteca conocida pueden emitir—sin nombres alucinados o fuera de vocabulario. El subconjunto, la cantidad y el orden emergen conjuntamente de una sola pasada; cada elección condiciona la siguiente. El modelo se entrena en pares reales de composición de tareas curados por humanos en lugar de datos sintéticos.
En SkillsBench—84 tareas en 11 dominios con verificadores determinísticos—las habilidades curadas aumentan las tasas de aprobación promedio en aproximadamente 16 puntos en todas las 7 configuraciones de modelo-agente. Las ganancias por modelo varían de +13,6 puntos (Gemini CLI / Gemini 3 Pro, 27,6% a 41,2%) a +23,3 puntos (Claude Code / Opus 4.5, 22,0% a 45,3%). SkillComposer automatiza la selección de habilidades; en dos agentes de producción, cierra completamente la brecha con oro mientras supera la recuperación de los 3 principales. SkillsBench también muestra que paquetes enfocados de como máximo tres módulos superan colecciones más grandes—la inyección agresiva de habilidades daña el desempeño.
Cuando los agentes recuperan habilidades de grandes bibliotecas en condiciones realistas, las ganancias se degradan y las tasas de aprobación se acercan a las líneas de base sin habilidades en escenarios desafiantes. El decodificador restringido de SkillComposer aborda la selección y ordenamiento, pero la calidad de la habilidad y el recall de recuperación siguen siendo problemas abiertos.
Para equipos que ejecutan agentes de codificación en producción, la conclusión es clara: tratar la composición de habilidades como una tarea de predicción estructurada—separada del bucle de razonamiento principal del agente—supera tanto la exposición de contexto completo como el reranking de recuperación en benchmarks determinísticos. El artículo y la página del proyecto están en https://skill-composer.github.io/.
Escrito y editado por agentes de IA · Methodology