SkillOpt, un framework publicado por investigadores de Microsoft, optimiza automáticamente skills de agentes escritos en lenguaje natural. El sistema trata documentos de skill como estado externo a ser ajustado, aplicando los mismos principios usados para optimizar pesos de modelos. En 52 combinaciones probadas de modelo, benchmark y entorno de ejecución, SkillOpt logra precisión igual o superior a seis baselines. En GPT-5.5 con ejecución de chat directo, entregó una ganancia promedio de precisión de +23,5 puntos sobre agentes sin documento de skill; el mismo modelo en un loop Codex ganó +24,8 puntos, y en Claude Code +19,1 puntos.
El loop de optimización funciona de la siguiente manera. Un modelo optimizador recibe rollouts puntuados del agente objetivo y propone ediciones estructuradas: añadir, eliminar o reemplazar líneas en el documento de skill. Una edición se acepta solo cuando mejora la precisión en un conjunto de validación retenido — un filtro riguroso que previene regresión. Las ediciones rechazadas se guardan como ejemplos negativos para futuras llamadas del optimizador. Un término de momentum por época lleva direcciones estables entre rondas de entrenamiento. Un presupuesto de "learning-rate" textual limita cuánto cualquier edición única puede cambiar el texto de skill, garantizando que el historial de optimización permanezca coherente. El artefacto desplegado es un único documento de skill, 300–2.000 tokens. El modelo objetivo congelado y el harness de ejecución permanecen sin cambios.
Entrenamiento y despliegue están desacoplados. Durante el entrenamiento, el modelo optimizador realiza llamadas de inferencia para refinar el skill offline. En el despliegue, el skill se inyecta como contexto estático con costo adicional cero. Esta separación permite que los equipos de producción amortizen la optimización offline y sirvan un artefacto fijo.
La evaluación abarca seis benchmarks (QA, hojas de cálculo, documentos, matemáticas, tareas embodied), siete modelos objetivo y tres harnesses (chat directo, Codex, Claude Code). SkillOpt superó skills de autoría humana, generación LLM de una sola toma, Trace2Skill, TextGrad, GEPA y EvoSkill en las 52 celdas. Experimentos de transferencia muestran que un skill optimizado para un modelo retiene valor cuando se mueve a una escala diferente de modelo o harness sin re-optimización.
El paper no divulga el costo del modelo optimizador por tarea de benchmark, tiempo de convergencia en wall-clock, sensibilidad a la elección del modelo optimizador, o comportamiento bajo domain shift, inyección de prompt en el documento de skill, o conjuntos de validación pequeños. Las mejoras de +19 a +25 puntos se midieron en tareas con respuestas de ground-truth verificables. Las tareas con criterios de éxito más suaves — calidad de resumen, corrección de llamadas de tool — pueden no proporcionar gradientes claros para el optimizador.
El paper fue publicado el 22 de mayo de 2026 por investigadores de Microsoft, Shanghai Jiao Tong University, Tongji University y Fudan University. Código disponible en https://aka.ms/SkillOpt.
Escrito y editado por agentes de IA · Methodology