SkillOpt da Microsoft Eleva Precisão de Agentes em 24 Pontos via Refinamento Automático de Skills

Pesquisadores propõem SkillOpt, o primeiro framework a tratar skills de agentes como estado externo aprendível otimizado como pesos, substituindo revisão autoguiada manual e pouco controlada. Ângulo para arquitetos: evolução reproduzível de skills sob feedback — aplicável a agentes RAG e sistemas de tool-use onde skills procedurais se desviam ao longo do tempo em produção.

SkillOpt, um framework publicado por pesquisadores da Microsoft, otimiza automaticamente skills de agentes escritos em linguagem natural. O sistema trata documentos de skill como estado externo a ser ajustado, aplicando os mesmos princípios usados para otimizar pesos de modelos. Em 52 combinações testadas de modelo, benchmark e ambiente de execução, SkillOpt alcança precisão igual ou superior aos seis baselines. No GPT-5.5 com execução de chat direto, entregou um ganho de precisão médio de +23,5 pontos sobre agentes sem documento de skill; o mesmo modelo em um loop Codex ganhou +24,8 pontos, e em Claude Code +19,1 pontos.

O loop de otimização funciona da seguinte forma. Um modelo otimizador recebe rollouts pontuados do agente alvo e propõe edições estruturadas: adicionar, deletar ou substituir linhas no documento de skill. Uma edição é aceita apenas quando melhora a precisão em um conjunto de validação retido — um filtro rigoroso que previne regressão. Edições rejeitadas são salvas como exemplos negativos para futuras chamadas do otimizador. Um termo de momentum por época carrega direções estáveis entre rodadas de treinamento. Um "budget de learning-rate" textual limita quanto qualquer edição única pode mudar o texto de skill, garantindo que o histórico de otimização permaneça coerente. O artefato implantado é um único documento de skill, 300–2.000 tokens. O modelo alvo congelado e o harness de execução permanecem inalterados.

Treinamento e implantação são desacoplados. Durante o treinamento, o modelo otimizador faz chamadas de inferência para refinar o skill offline. Na implantação, o skill é injetado como contexto estático com custo adicional zero. Esta separação permite que equipes de produção amortizem a otimização offline e sirvam um artefato fixo.

A avaliação abrange seis benchmarks (QA, planilhas, documentos, matemática, tarefas embodied), sete modelos alvo e três harnesses (chat direto, Codex, Claude Code). SkillOpt superou skills de autoria humana, geração LLM de um shot, Trace2Skill, TextGrad, GEPA e EvoSkill em todas as 52 células. Experimentos de transferência mostram que um skill otimizado para um modelo retém valor quando movido para uma escala diferente de modelo ou harness sem re-otimização.

O paper não divulga o custo do modelo otimizador por tarefa de benchmark, tempo de convergência em wall-clock, sensibilidade à escolha do modelo otimizador, ou comportamento sob domain shift, prompt injection no documento de skill, ou conjuntos de validação pequenos. Os melhoramentos de +19 a +25 pontos foram medidos em tarefas com respostas de ground-truth verificáveis. Tarefas com critérios de sucesso mais soft — qualidade de sumarização, correção de chamadas de tool — podem não fornecer gradientes claros para o otimizador.

O paper foi publicado em 22 de maio de 2026 por pesquisadores da Microsoft, Shanghai Jiao Tong University, Tongji University e Fudan University. Código disponível em https://aka.ms/SkillOpt.

Sources

SkillOpt is best or tied on all 52 evaluated (model, benchmark, harness) cells
"SkillOpt is best or tied on all 52 evaluated (model, benchmark, harness) cells and beats every per-cell competitor among human, one-shot LLM, Trace2Skill, TextGrad, GEPA, and EvoSkill skills."
arxiv.org ↗
On GPT-5.5, SkillOpt lifts no-skill accuracy by +23.5 points in direct chat, +24.8 in Codex, +19.1 in Claude Code
"On GPT–5.5 it lifts the average no-skill accuracy by +23.5 points in direct chat, by +24.8 inside the Codex agentic loop, and by +19.1 inside Claude Code."
arxiv.org ↗
A separate optimizer model proposes bounded add/delete/replace edits; edits are accepted only when they strictly improve a held-out validation score
"a separate optimizer model turns scored rollouts into bounded add/delete/replace edits on a single skill document, and an edit is accepted only when it strictly improves a held-out validation score."
arxiv.org ↗
The deployed skill artifact is a compact best_skill.md file of roughly 300–2,000 tokens, with zero additional inference-time model calls at deployment
"The deployed output is a compact best_skill.md file of roughly 300–2,000 tokens, with the adapted model and execution harness remaining fixed."
arxiv.org ↗
SkillOpt adds zero inference-time model calls at deployment
"A textual learning-rate budget, rejected-edit buffer, and epoch-wise slow/meta update make skill training stable while adding zero inference-time model calls at deployment."
arxiv.org ↗
Transfer experiments show optimized skill artifacts retain value across model scales, between Codex and Claude Code, and to nearby benchmarks without further optimization
"Transfer experiments further show that optimized skill artifacts retain value when moved across model scales, between Codex and Claude Code execution environments, and to a nearby math benchmark without further optimization."
arxiv.org ↗
Evaluation covers six benchmarks spanning QA, spreadsheets, documents, math, and embodied tasks, seven target models, and three execution harnesses
"We evaluate SkillOpt on six benchmarks covering QA, spreadsheets, documents, math, and embodied"
arxiv.org ↗
Code available at https://aka.ms/SkillOpt; paper published May 22, 2026 by researchers from Microsoft, SJTU, Tongji University, and Fudan University
"Code: https://aka.ms/SkillOpt Correspondence: yifanyang@microsoft.com, yangxue2019-sjtu@sjtu.edu.cn"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

SkillOpt da Microsoft Eleva Precisão de Agentes em 24 Pontos via Refinamento Automático de Skills

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.