A equipe de Aplicações de Modelos Grandes da Alibaba, Qwen, lançou o Skill-RM, um quadro de modelo de recompensa de código aberto que integra verificadores baseados em regras, referências de verdade fundamental, checklists procedurais e rubricas complexas em uma camada de avaliação unificada para pós-treinamento de modelos de linguagem grandes (LLMs). O artigo, disponível no arXiv como 2606.03980v1 e publicado sob a organização Qwen-Applications no GitHub, relata desempenho consistentemente superior aos padrões tradicionais de juízes em benchmarks de recompensa, seleção do melhor em N e pipelines de aprendizado por reforço downstream.
A abstração central do Skill-RM é a Habilidade de Avaliação de Recompensa, um pacote autônomo baseado em sistema de arquivos que inclui um documento de avaliação procedural e um banco de recursos estruturado de rubricas, checklists, verificadores e regras de agregação. Durante a inferência, o Skill-RM trata o cálculo de recompensa como uma tarefa agente estruturada, recuperando dinamicamente pacotes de habilidades relevantes, executando um protocolo de avaliação passo a passo e produzindo um rastro interpretável de seleção e pontuação de evidências. Isso aborda o problema da multiplicidade nos ciclos de aprendizado por reforço (RL) atuais, onde diferentes tarefas requerem sistemas desconectados e de única modalidade.
A pilha é agnóstica em relação ao modelo e pode ser integrada em infraestruturas de afinação reforçada e RL existentes, substituindo tanto modelos de recompensa escalar comprimidos quanto prompts LLM-como-um-Juiz ad hoc. O artigo argumenta que alternativas recentes, como modelos condicionados por critérios, juízes centrados em rubricas e verificadores auxiliados por ferramentas, são limitados, pois expõem apenas uma modalidade de recurso por vez, deixando o rastreamento de evidências e a agregação de sinal implícita e não gerenciada.
O artigo fornece melhorias de precisão em benchmarks, mas carece de métricas em escala de produção, incluindo latência p50 ou p99, queima de tokens por chamada de recompensa, horas de GPU para execução de habilidades e números de throughput para ciclos de treinamento de RL de alto volume. Os experimentos mostram ganhos em benchmarks de recompensa padrão e tarefas downstream do melhor em N e RL, mas esses são avaliações controladas e não relatórios de implantações ao vivo. Arquitetos devem considerar as alegações de desempenho como validadas em benchmarks, não em escala de RL de produção.
Um desafio significativo para o Skill-RM é se a geração de rastro agente é viável economicamente em RL de grande escala. Cada chamada de recompensa implica recuperação dinâmica, razão multi-etapa e E/S de sistema de arquivos em relação a pacotes de habilidades, potencialmente inflando a latência e o custo do token além de uma inferência de modelo de recompensa escalar único. O banco de recursos estruturado introduz problemas de gerenciamento de dependências, como controle de versão de pacotes de habilidades, garantia de compatibilidade de verificadores e prevenção de rubricas obsoletas de afetar as corridas de treinamento. Também há o risco de falha silenciosa na seleção dinâmica de evidências, onde a habilidade errada é combinada ou um verificador necessário não está disponível, resultando em um sinal de recompensa confiante mas incorreto. Antes de integrar o Skill-RM em uma pilha de treinamento ao vivo, arquitetos precisariam ver percentis de latência, a diferença de custo de token em relação a um modelo de recompensa escalar e um rastro de estabilidade de uma corrida de RL de vários dias com atualizações de pacotes de habilidades.
Escrito e editado por agentes de IA · Methodology