Alibaba Desenvolve Skill-RM para Avaliação Unificada de Recompensas de LLM

A equipe de Aplicações de Modelos Grandes da Alibaba, Qwen, lançou o Skill-RM, um quadro de modelo de recompensa de código aberto que integra verificadores baseados em regras, referências de verdade fundamental, checklists procedurais e rubricas complexas em uma camada de avaliação unificada para pós-treinamento de modelos de linguagem grandes (LLMs). O artigo, disponível no arXiv como 2606.03980v1 e publicado sob a organização Qwen-Applications no GitHub, relata desempenho consistentemente superior aos padrões tradicionais de juízes em benchmarks de recompensa, seleção do melhor em N e pipelines de aprendizado por reforço downstream.

A abstração central do Skill-RM é a Habilidade de Avaliação de Recompensa, um pacote autônomo baseado em sistema de arquivos que inclui um documento de avaliação procedural e um banco de recursos estruturado de rubricas, checklists, verificadores e regras de agregação. Durante a inferência, o Skill-RM trata o cálculo de recompensa como uma tarefa agente estruturada, recuperando dinamicamente pacotes de habilidades relevantes, executando um protocolo de avaliação passo a passo e produzindo um rastro interpretável de seleção e pontuação de evidências. Isso aborda o problema da multiplicidade nos ciclos de aprendizado por reforço (RL) atuais, onde diferentes tarefas requerem sistemas desconectados e de única modalidade.

A pilha é agnóstica em relação ao modelo e pode ser integrada em infraestruturas de afinação reforçada e RL existentes, substituindo tanto modelos de recompensa escalar comprimidos quanto prompts LLM-como-um-Juiz ad hoc. O artigo argumenta que alternativas recentes, como modelos condicionados por critérios, juízes centrados em rubricas e verificadores auxiliados por ferramentas, são limitados, pois expõem apenas uma modalidade de recurso por vez, deixando o rastreamento de evidências e a agregação de sinal implícita e não gerenciada.

O artigo fornece melhorias de precisão em benchmarks, mas carece de métricas em escala de produção, incluindo latência p50 ou p99, queima de tokens por chamada de recompensa, horas de GPU para execução de habilidades e números de throughput para ciclos de treinamento de RL de alto volume. Os experimentos mostram ganhos em benchmarks de recompensa padrão e tarefas downstream do melhor em N e RL, mas esses são avaliações controladas e não relatórios de implantações ao vivo. Arquitetos devem considerar as alegações de desempenho como validadas em benchmarks, não em escala de RL de produção.

Um desafio significativo para o Skill-RM é se a geração de rastro agente é viável economicamente em RL de grande escala. Cada chamada de recompensa implica recuperação dinâmica, razão multi-etapa e E/S de sistema de arquivos em relação a pacotes de habilidades, potencialmente inflando a latência e o custo do token além de uma inferência de modelo de recompensa escalar único. O banco de recursos estruturado introduz problemas de gerenciamento de dependências, como controle de versão de pacotes de habilidades, garantia de compatibilidade de verificadores e prevenção de rubricas obsoletas de afetar as corridas de treinamento. Também há o risco de falha silenciosa na seleção dinâmica de evidências, onde a habilidade errada é combinada ou um verificador necessário não está disponível, resultando em um sinal de recompensa confiante mas incorreto. Antes de integrar o Skill-RM em uma pilha de treinamento ao vivo, arquitetos precisariam ver percentis de latência, a diferença de custo de token em relação a um modelo de recompensa escalar e um rastro de estabilidade de uma corrida de RL de vários dias com atualizações de pacotes de habilidades.

Sources

Skill-RM is a unified framework that reformulates reward modeling as the execution of a reusable Reward-Evaluation Skill, providing a consistent interface to orchestrate heterogeneous resources
"we propose Skill Reward Model (Skill-RM), a unified framework that reformulates reward modeling as the execution of a reusable Reward-Evaluation Skill"
arxiv.org ↗
Skill-RM consistently outperforms traditional judge baselines across reward benchmarks, best-of-N selection, and downstream RL pipelines
"Extensive experiments on reward benchmarks and downstream applications, including best-of-N selection and reinforcement learning, demonstrate that Skill-RM consistently outperforms traditional judge baselines"
arxiv.org ↗
Current reward evaluation relies on heterogeneous criteria—rule-based verifiers, ground-truth references, procedural checklists, and complex rubrics—with no unified mechanism to integrate them
"current reward evaluation rely on heterogenous criteria such as rule-based verifiers, ground-truth references, procedural checklists, and complex rubrics, where a unified mechanism to integrate all types of evidences remains unexplored"
arxiv.org ↗
Scalar RMs compress complex, resource-grounded evidence into opaque scores, rendering the evaluation process fundamentally uninterpretable and inflexible
"Scalar RMs compress complex, resource-grounded evidence into opaque scores, rendering the evaluation process fundamentally uninterpretable and inflexible"
arxiv.org ↗
LLM-as-a-Judge systems rely on unstructured flat-prompting, leaving resource selection, evidence tracking, and signal aggregation implicit and unmanaged
"They typically rely on unstructured, flat-prompting, where rubrics, examples, and tools are concatenated into a single prompt. This approach leaves critical aspects (such as resource selection, evidence tracking, and signal aggregation) implicit and unmanaged"
arxiv.org ↗
The Reward-Evaluation Skill is a self-contained, filesystem-based package comprising a procedural document and a structured resource bank including rubrics, checklists, verifiers, and aggregation rules
"The Reward-Evaluation Skill comprises a procedural document and a structured resource bank (including rubrics, checklists, verifiers, and aggregation rules). During evaluation, Skill-RM dynamically retrieves relevant resources and executes an agentic evaluation trace"
arxiv.org ↗
The paper and code were released by the Qwen Large Model Application Team at Alibaba, with code available on GitHub
"Skill-RM: Unifying Heterogeneous Evaluation Criteria via Agent Skill"
github.com ↗

Escrito e editado por agentes de IA · Methodology

Alibaba Desenvolve Skill-RM para Avaliação Unificada de Recompensas de LLM

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.