La Precisión de Modelos de Recompensa Alcanza el Tope de 49% en Preferencias del Mundo Real

Nueva investigación (RMGAP) revela que los modelos de recompensa entrenados para alineación frecuentemente fallan en generalizar entre las diversas preferencias del usuario, una debilidad crítica para los sistemas basados en RLHF. Este benchmark expone por qué la alineación en producción puede ser frágil cuando enfrenta heterogeneidad de preferencias del mundo real.

Un nuevo benchmark llamado RMGAP probó 24 modelos de recompensa de última generación contra la diversidad real de preferencias y encontró que el mejor desempeño alcanzó 49,27% de precisión en Best-of-N—apenas por encima de un lanzamiento de moneda—exponiendo un problema fundamental de generalización en el corazón de los pipelines de RLHF en producción.

El artículo, escrito por Yangyang Zhou e Yi-Chen Li y publicado el 3 de mayo de 2026, aborda una brecha en la evaluación existente de modelos de recompensa: cada benchmark importante asume un único orden de preferencias universal. RMGAP rechaza esa premisa. Los usuarios reales quieren cosas diferentes—tonos distintos, estilos de razonamiento, niveles de verbosidad e intercambios de seguridad—y un modelo de recompensa que no pueda navegar esa varianza desalineará sistemáticamente modelos ajustados en producción.

El benchmark comprende 1.097 instancias abarcando cuatro dominios: Chat, Writing, Reasoning y Safety. Para cada prompt, los investigadores generaron cuatro respuestas distintas con perfiles lingüísticos deliberadamente variados. Los prompts originales se reescribieron para que una respuesta fuera la única opción correcta dada una preferencia específica declarada—obligando al modelo de recompensa a identificar correctamente la adecuación contextual en lugar de aferrarse a señales de calidad superficial. Cada prompt se amplió además con dos variantes parafraseadas, probando si los modelos responden al contenido semántico o al lenguaje superficial.

La mayoría de las organizaciones que ejecutan pipelines de RLHF usan un único modelo de recompensa entrenado en datos de preferencia agregados—a menudo de un grupo anotador estrecho. Los resultados de RMGAP sugieren que esos modelos optimizan para un promedio estadístico que representa mal a cualquier subgrupo de usuario real. Un techo de 49,27% de precisión en Best-of-N significa que el mejor RM disponible, dadas múltiples opciones de respuesta, elige la respuesta alineada con preferencia menos de la mitad del tiempo. Para sistemas en producción donde el muestreo Best-of-N es una estrategia común de alineación en tiempo de inferencia, este modo de fallo se traduce directamente en calidad de salida degradada para usuarios cuyas preferencias se desvían de la distribución de entrenamiento.

El benchmark plantea una pregunta arquitectónica concreta: ¿deberían los modelos de recompensa ser personalizados o segmentados en lugar de monolíticos? El marco de RMGAP implica que un único RM no puede servir adecuadamente a una base de usuarios heterogénea. Los stacks de alineación en producción pueden necesitar señales de recompensa por persona o condicionadas a preferencia. Eso agrega costo de infraestructura y requiere canales de datos de preferencias del usuario más ricos, pero la alternativa—desplegar un modelo de recompensa que generaliza mal—es una estrategia de alineación que falla silenciosamente en lugar de ruidosamente.

RMGAP evalúa 24 modelos pero no divulga qué modelos específicos se evaluaron, lo que dificulta evaluar si algún RM comercial o de peso abierto particular se acerca a ese techo de 49,27% o está muy por debajo. El benchmark también se limita a interacciones solo de texto, de un solo turno, en cuatro dominios; los modelos multimodales y las tareas multi-turno de agentes están fuera de alcance. El dataset y el código están disponibles públicamente en github.com/nanzhi84/RMGAP.

El stack de evaluación estándar nunca fue diseñado para capturar esta clase de fallo. RMGAP es el primer benchmark construido específicamente para exponerlo, y los resultados sugieren que la brecha ha estado allí todo el tiempo.

Sources

Best reward model achieves only 49.27% Best-of-N accuracy on RMGAP
"even the best RM achieves only 49.27% Best-of-N accuracy, highlighting considerable room for improvement in reward model generalization"
arxiv.org ↗
RMGAP benchmark comprises 1,097 instances across Chat, Writing, Reasoning, and Safety domains
"we introduce RMGAP, a benchmark comprising 1,097 instances across Chat, Writing, Reasoning, and Safety domains"
arxiv.org ↗
24 state-of-the-art reward models were evaluated on RMGAP
"Our evaluation of 24 state-of-the-art RMs reveals their substantial limitations"
arxiv.org ↗
Existing reward model benchmarks are designed around a universal preference and fail to assess generalization
"existing reward model benchmarks are typically designed around a universal preference, failing to assess this generalization"
arxiv.org ↗
Each prompt was extended with two paraphrased variants to test sensitivity to phrasing
"users often express the same preference using different phrasings, and thus extend each prompt with two paraphrased variants"
arxiv.org ↗
Dataset and code are available at github.com/nanzhi84/RMGAP
"Related data and code are available at https://github.com/nanzhi84/RMGAP"
arxiv.org ↗
Authors are Yangyang Zhou and Yi-Chen Li; paper published May 3, 2026
"AUTHORS: Yangyang Zhou, Yi-Chen Li PUBLISHED: 2026-05-03T11:45:08Z"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

La Precisión de Modelos de Recompensa Alcanza el Tope de 49% en Preferencias del Mundo Real

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.