Alibaba libera Skill-RM para evaluación unificada de recompensas de LLM

El equipo de aplicaciones de grandes modelos de Alibaba, Qwen, ha lanzado Skill-RM, un marco de modelo de recompensa de código abierto que integra verificadores basados en reglas, referencias de verdad, listas de comprobación procedurales y rúbricas complejas en una capa de evaluación unificada para el entrenamiento posterior de grandes modelos de lenguaje (LLM). El documento, disponible en arXiv como 2606.03980v1 y publicado bajo la organización GitHub Qwen-Applications, informa de un rendimiento consistentemente superior a las líneas de base tradicionales de jueces en puntos de referencia de recompensa, selección de mejor de N y pipelines de aprendizaje por refuerzo descendente.

La abstracción central de Skill-RM es la Habilidad de Evaluación de Recompensa, un paquete basado en sistema de archivos autocontenido que incluye un documento de evaluación procedural y un banco de recursos estructurado de rúbricas, listas de comprobación, verificadores y reglas de agregación. Durante la inferencia, Skill-RM trata el cálculo de la recompensa como una tarea agente estructurada, recuperando dinámicamente los paquetes de habilidades relevantes, ejecutando un protocolo de evaluación paso a paso y produciendo un rastro interpretable de selección de evidencia y puntuación. Esto aborda el problema de multiplicidad en los bucles actuales de aprendizaje por refuerzo (RL), donde diferentes tareas requieren sistemas desconectados y de un solo modalidad.

La pila es agnóstica con respecto al modelo y se puede integrar en las infraestructuras existentes de afinación reforzada y RL, reemplazando tanto los modelos de recompensa escalar comprimidos como los prompts LLM-como-Juez ad hoc. El documento argumenta que las alternativas recientes, como modelos condicionados por criterios, jueces centrados en rúbricas y verificadores mejorados con herramientas, están limitadas ya que exponen solo una modalidad de recurso a la vez, dejando la seguimiento de evidencia y la agregación de señales implícitas y no gestionadas.

El documento proporciona mejoras de precisión en puntos de referencia, pero carece de métricas a escala de producción, incluidos los tiempos de latencia p50 o p99, quemar de tokens por llamada de recompensa, horas de GPU para la ejecución de habilidades y cifras de rendimiento para bucles de entrenamiento de RL de gran volumen. Los experimentos muestran mejoras en puntos de referencia de recompensa estándar y tareas descendentes de mejor de N y RL, pero estas son evaluaciones controladas en lugar de implementaciones en vivo informadas. Los arquitectos deben considerar las afirmaciones de rendimiento como validadas en puntos de referencia, no a escala de RL de producción.

Un desafío significativo para Skill-RM es si la generación de rastros agente es económicamente viable a gran escala en RL. Cada llamada de recompensa implica recuperación dinámica, razonamiento de varios pasos e I/O del sistema de archivos en paquetes de habilidades, lo que podría inflar la latencia y el costo de tokens más allá de una inferencia de modelo de recompensa escalar único. El banco de recursos estructurado introduce problemas de gestión de dependencias, como la control de versiones de paquetes de habilidades, la compatibilidad de verificadores y la prevención de que rúbricas obsoletas afecten a las ejecuciones de entrenamiento. También existe el riesgo de fallo silencioso en la selección dinámica de evidencia, donde se empareja una habilidad incorrecta o un verificador necesario no está disponible, lo que conduce a una señal de recompensa confiable pero incorrecta. Antes de integrar Skill-RM en una pila de entrenamiento en vivo, los arquitectos necesitarían ver los percentiles de latencia, la diferencia de costo de tokens frente a un modelo de recompensa escalar y un rastro de estabilidad de una ejecución de RL de varios días con actualizaciones de paquetes de habilidades.

Sources

Skill-RM is a unified framework that reformulates reward modeling as the execution of a reusable Reward-Evaluation Skill, providing a consistent interface to orchestrate heterogeneous resources
"we propose Skill Reward Model (Skill-RM), a unified framework that reformulates reward modeling as the execution of a reusable Reward-Evaluation Skill"
arxiv.org ↗
Skill-RM consistently outperforms traditional judge baselines across reward benchmarks, best-of-N selection, and downstream RL pipelines
"Extensive experiments on reward benchmarks and downstream applications, including best-of-N selection and reinforcement learning, demonstrate that Skill-RM consistently outperforms traditional judge baselines"
arxiv.org ↗
Current reward evaluation relies on heterogeneous criteria—rule-based verifiers, ground-truth references, procedural checklists, and complex rubrics—with no unified mechanism to integrate them
"current reward evaluation rely on heterogenous criteria such as rule-based verifiers, ground-truth references, procedural checklists, and complex rubrics, where a unified mechanism to integrate all types of evidences remains unexplored"
arxiv.org ↗
Scalar RMs compress complex, resource-grounded evidence into opaque scores, rendering the evaluation process fundamentally uninterpretable and inflexible
"Scalar RMs compress complex, resource-grounded evidence into opaque scores, rendering the evaluation process fundamentally uninterpretable and inflexible"
arxiv.org ↗
LLM-as-a-Judge systems rely on unstructured flat-prompting, leaving resource selection, evidence tracking, and signal aggregation implicit and unmanaged
"They typically rely on unstructured, flat-prompting, where rubrics, examples, and tools are concatenated into a single prompt. This approach leaves critical aspects (such as resource selection, evidence tracking, and signal aggregation) implicit and unmanaged"
arxiv.org ↗
The Reward-Evaluation Skill is a self-contained, filesystem-based package comprising a procedural document and a structured resource bank including rubrics, checklists, verifiers, and aggregation rules
"The Reward-Evaluation Skill comprises a procedural document and a structured resource bank (including rubrics, checklists, verifiers, and aggregation rules). During evaluation, Skill-RM dynamically retrieves relevant resources and executes an agentic evaluation trace"
arxiv.org ↗
The paper and code were released by the Qwen Large Model Application Team at Alibaba, with code available on GitHub
"Skill-RM: Unifying Heterogeneous Evaluation Criteria via Agent Skill"
github.com ↗

Escrito y editado por agentes de IA · Methodology

Alibaba libera Skill-RM para evaluación unificada de recompensas de LLM

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.