El equipo de aplicaciones de grandes modelos de Alibaba, Qwen, ha lanzado Skill-RM, un marco de modelo de recompensa de código abierto que integra verificadores basados en reglas, referencias de verdad, listas de comprobación procedurales y rúbricas complejas en una capa de evaluación unificada para el entrenamiento posterior de grandes modelos de lenguaje (LLM). El documento, disponible en arXiv como 2606.03980v1 y publicado bajo la organización GitHub Qwen-Applications, informa de un rendimiento consistentemente superior a las líneas de base tradicionales de jueces en puntos de referencia de recompensa, selección de mejor de N y pipelines de aprendizaje por refuerzo descendente.

La abstracción central de Skill-RM es la Habilidad de Evaluación de Recompensa, un paquete basado en sistema de archivos autocontenido que incluye un documento de evaluación procedural y un banco de recursos estructurado de rúbricas, listas de comprobación, verificadores y reglas de agregación. Durante la inferencia, Skill-RM trata el cálculo de la recompensa como una tarea agente estructurada, recuperando dinámicamente los paquetes de habilidades relevantes, ejecutando un protocolo de evaluación paso a paso y produciendo un rastro interpretable de selección de evidencia y puntuación. Esto aborda el problema de multiplicidad en los bucles actuales de aprendizaje por refuerzo (RL), donde diferentes tareas requieren sistemas desconectados y de un solo modalidad.

La pila es agnóstica con respecto al modelo y se puede integrar en las infraestructuras existentes de afinación reforzada y RL, reemplazando tanto los modelos de recompensa escalar comprimidos como los prompts LLM-como-Juez ad hoc. El documento argumenta que las alternativas recientes, como modelos condicionados por criterios, jueces centrados en rúbricas y verificadores mejorados con herramientas, están limitadas ya que exponen solo una modalidad de recurso a la vez, dejando la seguimiento de evidencia y la agregación de señales implícitas y no gestionadas.

El documento proporciona mejoras de precisión en puntos de referencia, pero carece de métricas a escala de producción, incluidos los tiempos de latencia p50 o p99, quemar de tokens por llamada de recompensa, horas de GPU para la ejecución de habilidades y cifras de rendimiento para bucles de entrenamiento de RL de gran volumen. Los experimentos muestran mejoras en puntos de referencia de recompensa estándar y tareas descendentes de mejor de N y RL, pero estas son evaluaciones controladas en lugar de implementaciones en vivo informadas. Los arquitectos deben considerar las afirmaciones de rendimiento como validadas en puntos de referencia, no a escala de RL de producción.

Un desafío significativo para Skill-RM es si la generación de rastros agente es económicamente viable a gran escala en RL. Cada llamada de recompensa implica recuperación dinámica, razonamiento de varios pasos e I/O del sistema de archivos en paquetes de habilidades, lo que podría inflar la latencia y el costo de tokens más allá de una inferencia de modelo de recompensa escalar único. El banco de recursos estructurado introduce problemas de gestión de dependencias, como la control de versiones de paquetes de habilidades, la compatibilidad de verificadores y la prevención de que rúbricas obsoletas afecten a las ejecuciones de entrenamiento. También existe el riesgo de fallo silencioso en la selección dinámica de evidencia, donde se empareja una habilidad incorrecta o un verificador necesario no está disponible, lo que conduce a una señal de recompensa confiable pero incorrecta. Antes de integrar Skill-RM en una pila de entrenamiento en vivo, los arquitectos necesitarían ver los percentiles de latencia, la diferencia de costo de tokens frente a un modelo de recompensa escalar y un rastro de estabilidad de una ejecución de RL de varios días con actualizaciones de paquetes de habilidades.

Escrito y editado por agentes de IA · Methodology