SkillOpt de Microsoft Eleva la Precisión de Agentes 24 Puntos mediante Refinamiento Automático de Skills

Investigadores proponen SkillOpt, el primer framework para tratar skills de agentes como estado externo aprendible optimizado como pesos, reemplazando la revisión autoguiada manual y poco controlada. Ángulo para arquitectos: evolución reproducible de skills bajo retroalimentación — aplicable a agentes RAG y sistemas de tool-use donde skills procedurales se desvían con el tiempo en producción.

SkillOpt, un framework publicado por investigadores de Microsoft, optimiza automáticamente skills de agentes escritos en lenguaje natural. El sistema trata documentos de skill como estado externo a ser ajustado, aplicando los mismos principios usados para optimizar pesos de modelos. En 52 combinaciones probadas de modelo, benchmark y entorno de ejecución, SkillOpt logra precisión igual o superior a seis baselines. En GPT-5.5 con ejecución de chat directo, entregó una ganancia promedio de precisión de +23,5 puntos sobre agentes sin documento de skill; el mismo modelo en un loop Codex ganó +24,8 puntos, y en Claude Code +19,1 puntos.

El loop de optimización funciona de la siguiente manera. Un modelo optimizador recibe rollouts puntuados del agente objetivo y propone ediciones estructuradas: añadir, eliminar o reemplazar líneas en el documento de skill. Una edición se acepta solo cuando mejora la precisión en un conjunto de validación retenido — un filtro riguroso que previene regresión. Las ediciones rechazadas se guardan como ejemplos negativos para futuras llamadas del optimizador. Un término de momentum por época lleva direcciones estables entre rondas de entrenamiento. Un presupuesto de "learning-rate" textual limita cuánto cualquier edición única puede cambiar el texto de skill, garantizando que el historial de optimización permanezca coherente. El artefacto desplegado es un único documento de skill, 300–2.000 tokens. El modelo objetivo congelado y el harness de ejecución permanecen sin cambios.

Entrenamiento y despliegue están desacoplados. Durante el entrenamiento, el modelo optimizador realiza llamadas de inferencia para refinar el skill offline. En el despliegue, el skill se inyecta como contexto estático con costo adicional cero. Esta separación permite que los equipos de producción amortizen la optimización offline y sirvan un artefacto fijo.

La evaluación abarca seis benchmarks (QA, hojas de cálculo, documentos, matemáticas, tareas embodied), siete modelos objetivo y tres harnesses (chat directo, Codex, Claude Code). SkillOpt superó skills de autoría humana, generación LLM de una sola toma, Trace2Skill, TextGrad, GEPA y EvoSkill en las 52 celdas. Experimentos de transferencia muestran que un skill optimizado para un modelo retiene valor cuando se mueve a una escala diferente de modelo o harness sin re-optimización.

El paper no divulga el costo del modelo optimizador por tarea de benchmark, tiempo de convergencia en wall-clock, sensibilidad a la elección del modelo optimizador, o comportamiento bajo domain shift, inyección de prompt en el documento de skill, o conjuntos de validación pequeños. Las mejoras de +19 a +25 puntos se midieron en tareas con respuestas de ground-truth verificables. Las tareas con criterios de éxito más suaves — calidad de resumen, corrección de llamadas de tool — pueden no proporcionar gradientes claros para el optimizador.

El paper fue publicado el 22 de mayo de 2026 por investigadores de Microsoft, Shanghai Jiao Tong University, Tongji University y Fudan University. Código disponible en https://aka.ms/SkillOpt.

Sources

SkillOpt is best or tied on all 52 evaluated (model, benchmark, harness) cells
"SkillOpt is best or tied on all 52 evaluated (model, benchmark, harness) cells and beats every per-cell competitor among human, one-shot LLM, Trace2Skill, TextGrad, GEPA, and EvoSkill skills."
arxiv.org ↗
On GPT-5.5, SkillOpt lifts no-skill accuracy by +23.5 points in direct chat, +24.8 in Codex, +19.1 in Claude Code
"On GPT–5.5 it lifts the average no-skill accuracy by +23.5 points in direct chat, by +24.8 inside the Codex agentic loop, and by +19.1 inside Claude Code."
arxiv.org ↗
A separate optimizer model proposes bounded add/delete/replace edits; edits are accepted only when they strictly improve a held-out validation score
"a separate optimizer model turns scored rollouts into bounded add/delete/replace edits on a single skill document, and an edit is accepted only when it strictly improves a held-out validation score."
arxiv.org ↗
The deployed skill artifact is a compact best_skill.md file of roughly 300–2,000 tokens, with zero additional inference-time model calls at deployment
"The deployed output is a compact best_skill.md file of roughly 300–2,000 tokens, with the adapted model and execution harness remaining fixed."
arxiv.org ↗
SkillOpt adds zero inference-time model calls at deployment
"A textual learning-rate budget, rejected-edit buffer, and epoch-wise slow/meta update make skill training stable while adding zero inference-time model calls at deployment."
arxiv.org ↗
Transfer experiments show optimized skill artifacts retain value across model scales, between Codex and Claude Code, and to nearby benchmarks without further optimization
"Transfer experiments further show that optimized skill artifacts retain value when moved across model scales, between Codex and Claude Code execution environments, and to a nearby math benchmark without further optimization."
arxiv.org ↗
Evaluation covers six benchmarks spanning QA, spreadsheets, documents, math, and embodied tasks, seven target models, and three execution harnesses
"We evaluate SkillOpt on six benchmarks covering QA, spreadsheets, documents, math, and embodied"
arxiv.org ↗
Code available at https://aka.ms/SkillOpt; paper published May 22, 2026 by researchers from Microsoft, SJTU, Tongji University, and Fudan University
"Code: https://aka.ms/SkillOpt Correspondence: yifanyang@microsoft.com, yangxue2019-sjtu@sjtu.edu.cn"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

SkillOpt de Microsoft Eleva la Precisión de Agentes 24 Puntos mediante Refinamiento Automático de Skills

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.