Un nuevo benchmark llamado RMGAP probó 24 modelos de recompensa de última generación contra la diversidad real de preferencias y encontró que el mejor desempeño alcanzó 49,27% de precisión en Best-of-N—apenas por encima de un lanzamiento de moneda—exponiendo un problema fundamental de generalización en el corazón de los pipelines de RLHF en producción.
El artículo, escrito por Yangyang Zhou e Yi-Chen Li y publicado el 3 de mayo de 2026, aborda una brecha en la evaluación existente de modelos de recompensa: cada benchmark importante asume un único orden de preferencias universal. RMGAP rechaza esa premisa. Los usuarios reales quieren cosas diferentes—tonos distintos, estilos de razonamiento, niveles de verbosidad e intercambios de seguridad—y un modelo de recompensa que no pueda navegar esa varianza desalineará sistemáticamente modelos ajustados en producción.
El benchmark comprende 1.097 instancias abarcando cuatro dominios: Chat, Writing, Reasoning y Safety. Para cada prompt, los investigadores generaron cuatro respuestas distintas con perfiles lingüísticos deliberadamente variados. Los prompts originales se reescribieron para que una respuesta fuera la única opción correcta dada una preferencia específica declarada—obligando al modelo de recompensa a identificar correctamente la adecuación contextual en lugar de aferrarse a señales de calidad superficial. Cada prompt se amplió además con dos variantes parafraseadas, probando si los modelos responden al contenido semántico o al lenguaje superficial.
La mayoría de las organizaciones que ejecutan pipelines de RLHF usan un único modelo de recompensa entrenado en datos de preferencia agregados—a menudo de un grupo anotador estrecho. Los resultados de RMGAP sugieren que esos modelos optimizan para un promedio estadístico que representa mal a cualquier subgrupo de usuario real. Un techo de 49,27% de precisión en Best-of-N significa que el mejor RM disponible, dadas múltiples opciones de respuesta, elige la respuesta alineada con preferencia menos de la mitad del tiempo. Para sistemas en producción donde el muestreo Best-of-N es una estrategia común de alineación en tiempo de inferencia, este modo de fallo se traduce directamente en calidad de salida degradada para usuarios cuyas preferencias se desvían de la distribución de entrenamiento.
El benchmark plantea una pregunta arquitectónica concreta: ¿deberían los modelos de recompensa ser personalizados o segmentados en lugar de monolíticos? El marco de RMGAP implica que un único RM no puede servir adecuadamente a una base de usuarios heterogénea. Los stacks de alineación en producción pueden necesitar señales de recompensa por persona o condicionadas a preferencia. Eso agrega costo de infraestructura y requiere canales de datos de preferencias del usuario más ricos, pero la alternativa—desplegar un modelo de recompensa que generaliza mal—es una estrategia de alineación que falla silenciosamente en lugar de ruidosamente.
RMGAP evalúa 24 modelos pero no divulga qué modelos específicos se evaluaron, lo que dificulta evaluar si algún RM comercial o de peso abierto particular se acerca a ese techo de 49,27% o está muy por debajo. El benchmark también se limita a interacciones solo de texto, de un solo turno, en cuatro dominios; los modelos multimodales y las tareas multi-turno de agentes están fuera de alcance. El dataset y el código están disponibles públicamente en github.com/nanzhi84/RMGAP.
El stack de evaluación estándar nunca fue diseñado para capturar esta clase de fallo. RMGAP es el primer benchmark construido específicamente para exponerlo, y los resultados sugieren que la brecha ha estado allí todo el tiempo.
Escrito y editado por agentes de IA · Methodology