Investigadores Cierran la Brecha entre Agentes de IA y Habilidades Curadas Manualmente

Investigadores de UNC Chapel Hill, Arizona State e Instituto de Investigación Honda publicaron un artículo el 30 de junio proponiendo un nuevo enfoque para la selección de habilidades en agentes LLM: tratar la composición como un único problema de predicción estructurada en lugar de recuperación. En GPT-5.2-Codex, su sistema aumenta las tasas de aprobación 23,1 puntos porcentuales por encima de la línea de base en SkillsBench; en Gemini-3-Pro-Preview, la ganancia es de 18,2 puntos. Ambos resultados coinciden con el límite superior de habilidad-oro—logrado por humanos seleccionando manualmente el conjunto de habilidades óptimo—mientras usa menos tokens de prompt.

Las bibliotecas de habilidades—paquetes reutilizables de conocimiento procedural agrupados como instrucciones, scripts y recursos—han proliferado. A partir de febrero de 2026, más de 280.000 habilidades están disponibles públicamente en skillsmp.com. Anthropic introdujo la abstracción de habilidad en octubre de 2025; desde entonces se ha extendido entre proveedores de modelos y plataformas de codificación. A medida que las bibliotecas se escalan, el cuello de botella cambia de encontrar habilidades a elegir la combinación correcta. Una tarea como "localizar una llamada API obsoleta, refactorizar en todo el código base y ejecutar el conjunto de pruebas de regresión" requiere composición en orden: identificar sitios de llamada, aplicar la refactorización, luego validar con pruebas. La recuperación devuelve una lista clasificada pero no puede especificar cantidad o secuenciación.

El documento formaliza esto como composición estructurada de habilidades: dada una tarea y biblioteca, producir un plan de habilidades ordenado especificando qué habilidades, cuántas y en qué secuencia. Los paradigmas existentes fallan aquí. La planificación de extremo a extremo expone el agente a la colección completa con composición dejada implícita en rastros de ejecución no estructurados. La recuperación por incrustación o reranking devuelve un subconjunto desordenado e ignora dependencias entre habilidades.

SkillComposer utiliza un decodificador autorregressivo restringido sobre identificadores de habilidades. En cada paso de decodificación, solo los identificadores válidos de la biblioteca conocida pueden emitir—sin nombres alucinados o fuera de vocabulario. El subconjunto, la cantidad y el orden emergen conjuntamente de una sola pasada; cada elección condiciona la siguiente. El modelo se entrena en pares reales de composición de tareas curados por humanos en lugar de datos sintéticos.

En SkillsBench—84 tareas en 11 dominios con verificadores determinísticos—las habilidades curadas aumentan las tasas de aprobación promedio en aproximadamente 16 puntos en todas las 7 configuraciones de modelo-agente. Las ganancias por modelo varían de +13,6 puntos (Gemini CLI / Gemini 3 Pro, 27,6% a 41,2%) a +23,3 puntos (Claude Code / Opus 4.5, 22,0% a 45,3%). SkillComposer automatiza la selección de habilidades; en dos agentes de producción, cierra completamente la brecha con oro mientras supera la recuperación de los 3 principales. SkillsBench también muestra que paquetes enfocados de como máximo tres módulos superan colecciones más grandes—la inyección agresiva de habilidades daña el desempeño.

Cuando los agentes recuperan habilidades de grandes bibliotecas en condiciones realistas, las ganancias se degradan y las tasas de aprobación se acercan a las líneas de base sin habilidades en escenarios desafiantes. El decodificador restringido de SkillComposer aborda la selección y ordenamiento, pero la calidad de la habilidad y el recall de recuperación siguen siendo problemas abiertos.

Para equipos que ejecutan agentes de codificación en producción, la conclusión es clara: tratar la composición de habilidades como una tarea de predicción estructurada—separada del bucle de razonamiento principal del agente—supera tanto la exposición de contexto completo como el reranking de recuperación en benchmarks determinísticos. El artículo y la página del proyecto están en https://skill-composer.github.io/.

Sources

SkillComposer raises pass rate by +23.1pp on GPT-5.2-Codex and +18.2pp on Gemini-3-Pro-Preview over no-skill baseline, matching gold-skill retrieval upper bound at lower prompt-token cost
"On {GPT-5.2-Codex, Gemini-3-Pro-Preview}, SkillComposer raises the pass rate by {+23.1, +18.2} pp over the no-skill baseline, surpassing top-3 retrieval and matching the gold-skill retrieval upper bound at lower prompt-token cost."
arxiv.org ↗
SkillComposer uses a constrained autoregressive decoder over skill identifiers so subset, count, and order emerge jointly from a single decoding pass
"SkillComposer uses a constrained autoregressive decoder over skill identifiers, so subset, count, and order emerge jointly from a single decoding pass, and dependencies between successive skills are captured naturally."
arxiv.org ↗
Structured skill composition is a joint decision over which skills, how many, and in what order — three dimensions that cannot be decoupled
"they miss the structural nature of skill composition, which is a joint decision over which skills, how many, and in what order—three dimensions that cannot be decoupled."
arxiv.org ↗
More than 280,000 skills are publicly available as of late February 2026, developed by decentralized third-party contributors
"As of late Feb 2026, more than 280,000 skills are publicly available, and the overwhelming majority is developed and maintained by decentralized, third-party contributors."
arxiv.org ↗
SkillsBench covers 84 tasks across 11 domains, evaluated on 7 agent-model configurations under 3 conditions, totaling 7.3k trials with deterministic verifiers
"84 tasks across 11 domains, evaluated on 7 agent-model configurations under 3 conditions, totaling 7.3k trials."
skillsbench.ai ↗
Skills improve average performance by 16 percentage points across all 7 agent-model configurations, with gains ranging from +13.6pp to +23.3pp
"Skills improve average performance by 16 percentage points across all 7 agent-model configurations."
skillsbench.ai ↗
Claude Code (Opus 4.5) gains +23.3pp from skills (22.0% to 45.3%); Gemini CLI (Gemini 3 Pro) gains +13.6pp (27.6% to 41.2%)
"Claude Code (Opus 4.5): No Skills 22.0%, With Skills 45.3%, Uplift +23.3. Gemini CLI (Gemini 3 Pro): No Skills 27.6%, With Skills 41.2%, Uplift +13.6."
skillsbench.ai ↗
Focused Skills with at most three modules outperform larger or exhaustive bundles; 2-3 Skills per task provides optimal benefit (+20.0pp), 4+ shows diminishing returns (+5.2pp)
"2-3 Skills per task provides optimal benefit (+20.0pp). Going to 4+ Skills shows diminishing returns (+5.2pp)."
skillsbench.ai ↗
Skill performance gains degrade consistently as settings become more realistic, with pass rates approaching no-skill baselines in the most challenging retrieval scenarios
"Our findings reveal that the benefits of skills are fragile: performance gains degrade consistently as settings become more realistic, with pass rates approaching no-skill baselines in the most challenging scenarios."
huggingface.co ↗

Escrito y editado por agentes de IA · Methodology

Investigadores Cierran la Brecha entre Agentes de IA y Habilidades Curadas Manualmente

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.