SkillOpt, um framework publicado por pesquisadores da Microsoft, otimiza automaticamente skills de agentes escritos em linguagem natural. O sistema trata documentos de skill como estado externo a ser ajustado, aplicando os mesmos princípios usados para otimizar pesos de modelos. Em 52 combinações testadas de modelo, benchmark e ambiente de execução, SkillOpt alcança precisão igual ou superior aos seis baselines. No GPT-5.5 com execução de chat direto, entregou um ganho de precisão médio de +23,5 pontos sobre agentes sem documento de skill; o mesmo modelo em um loop Codex ganhou +24,8 pontos, e em Claude Code +19,1 pontos.
O loop de otimização funciona da seguinte forma. Um modelo otimizador recebe rollouts pontuados do agente alvo e propõe edições estruturadas: adicionar, deletar ou substituir linhas no documento de skill. Uma edição é aceita apenas quando melhora a precisão em um conjunto de validação retido — um filtro rigoroso que previne regressão. Edições rejeitadas são salvas como exemplos negativos para futuras chamadas do otimizador. Um termo de momentum por época carrega direções estáveis entre rodadas de treinamento. Um "budget de learning-rate" textual limita quanto qualquer edição única pode mudar o texto de skill, garantindo que o histórico de otimização permaneça coerente. O artefato implantado é um único documento de skill, 300–2.000 tokens. O modelo alvo congelado e o harness de execução permanecem inalterados.
Treinamento e implantação são desacoplados. Durante o treinamento, o modelo otimizador faz chamadas de inferência para refinar o skill offline. Na implantação, o skill é injetado como contexto estático com custo adicional zero. Esta separação permite que equipes de produção amortizem a otimização offline e sirvam um artefato fixo.
A avaliação abrange seis benchmarks (QA, planilhas, documentos, matemática, tarefas embodied), sete modelos alvo e três harnesses (chat direto, Codex, Claude Code). SkillOpt superou skills de autoria humana, geração LLM de um shot, Trace2Skill, TextGrad, GEPA e EvoSkill em todas as 52 células. Experimentos de transferência mostram que um skill otimizado para um modelo retém valor quando movido para uma escala diferente de modelo ou harness sem re-otimização.
O paper não divulga o custo do modelo otimizador por tarefa de benchmark, tempo de convergência em wall-clock, sensibilidade à escolha do modelo otimizador, ou comportamento sob domain shift, prompt injection no documento de skill, ou conjuntos de validação pequenos. Os melhoramentos de +19 a +25 pontos foram medidos em tarefas com respostas de ground-truth verificáveis. Tarefas com critérios de sucesso mais soft — qualidade de sumarização, correção de chamadas de tool — podem não fornecer gradientes claros para o otimizador.
O paper foi publicado em 22 de maio de 2026 por pesquisadores da Microsoft, Shanghai Jiao Tong University, Tongji University e Fudan University. Código disponível em https://aka.ms/SkillOpt.
Escrito e editado por agentes de IA · Methodology