Acurácia de Modelos de Recompensa Atinge o Teto de 49% em Preferências do Mundo Real

Nova pesquisa (RMGAP) revela que modelos de recompensa treinados para alinhamento frequentemente falham em generalizar entre diversas preferências dos usuários, uma fraqueza crítica para sistemas baseados em RLHF. Este benchmark expõe por que o alinhamento em produção pode ser frágil quando confrontado com heterogeneidade de preferências do mundo real.

Um novo benchmark chamado RMGAP testou 24 modelos de recompensa de última geração contra diversidade real de preferências e descobriu que o melhor desempenho alcançou 49,27% de acurácia em Best-of-N—apenas ligeiramente acima de um lançamento de moeda—expondo um problema fundamental de generalização no coração de pipelines de RLHF em produção.

O artigo, escrito por Yangyang Zhou e Yi-Chen Li e publicado em 3 de maio de 2026, aponta uma lacuna na avaliação existente de modelos de recompensa: todo benchmark importante assume uma única ordenação de preferências universal. RMGAP rejeita essa premissa. Usuários reais querem coisas diferentes—tons diferentes, estilos de raciocínio, níveis de verbosidade e compromissos de segurança—e um modelo de recompensa que não consiga navegar essa variância sistematicamente desalinhará modelos ajustados em produção.

O benchmark compreende 1.097 instâncias abrangendo quatro domínios: Chat, Writing, Reasoning e Safety. Para cada prompt, os pesquisadores geraram quatro respostas distintas com perfis linguísticos deliberadamente variados. Os prompts originais foram então reescritos para tornar uma resposta a escolha única e correta dada uma preferência específica declarada—forçando o modelo de recompensa a identificar corretamente adequação contextual em vez de se prender a sinais de qualidade superficial. Cada prompt foi ainda estendido com duas variantes parafraseadas, testando se os modelos respondem ao conteúdo semântico ou à formulação superficial.

A maioria das organizações que executam pipelines de RLHF usa um único modelo de recompensa treinado em dados de preferência agregados—frequentemente de um pool de anotadores estreito. Os resultados de RMGAP sugerem que esses modelos otimizam para uma média estatística que representa mal qualquer subgrupo de usuário real. Um teto de 49,27% de acurácia em Best-of-N significa que o melhor RM disponível, quando oferecido múltiplos candidatos de resposta, escolhe a resposta alinhada com preferência menos da metade das vezes. Para sistemas em produção onde amostragem Best-of-N é uma estratégia comum de alinhamento em tempo de inferência, este modo de falha se traduz diretamente em qualidade de saída degradada para usuários cujas preferências desviam da distribuição de treinamento.

O benchmark levanta uma questão arquitetural concreta: modelos de recompensa devem ser personalizados ou segmentados em vez de monolíticos? O enquadramento de RMGAP implica que um único RM não consegue servir adequadamente uma base de usuários heterogênea. Stacks de alinhamento em produção podem precisar de sinais de recompensa por persona ou condicionados a preferência. Isso adiciona custo de infraestrutura e requer pipelines de dados de preferência do usuário mais ricos, mas a alternativa—implantar um modelo de recompensa que generaliza mal—é uma estratégia de alinhamento que quebra silenciosamente em vez de ruidosamente.

RMGAP avalia 24 modelos mas não divulga quais modelos específicos foram testados, tornando difícil avaliar se algum RM comercial ou de peso aberto particular fica perto daquele teto de 49,27% ou bem abaixo dele. O benchmark também é limitado a interações apenas texto, single-turn, entre quatro domínios; modelos multimodais e tarefas agenticas multi-turn estão fora do escopo. O dataset e o código estão publicamente disponíveis em github.com/nanzhi84/RMGAP.

O stack de avaliação padrão nunca foi projetado para capturar esta classe de falha. RMGAP é o primeiro benchmark construído especificamente para surfá-la, e os resultados sugerem que a lacuna esteve lá o tempo todo.

Sources

Best reward model achieves only 49.27% Best-of-N accuracy on RMGAP
"even the best RM achieves only 49.27% Best-of-N accuracy, highlighting considerable room for improvement in reward model generalization"
arxiv.org ↗
RMGAP benchmark comprises 1,097 instances across Chat, Writing, Reasoning, and Safety domains
"we introduce RMGAP, a benchmark comprising 1,097 instances across Chat, Writing, Reasoning, and Safety domains"
arxiv.org ↗
24 state-of-the-art reward models were evaluated on RMGAP
"Our evaluation of 24 state-of-the-art RMs reveals their substantial limitations"
arxiv.org ↗
Existing reward model benchmarks are designed around a universal preference and fail to assess generalization
"existing reward model benchmarks are typically designed around a universal preference, failing to assess this generalization"
arxiv.org ↗
Each prompt was extended with two paraphrased variants to test sensitivity to phrasing
"users often express the same preference using different phrasings, and thus extend each prompt with two paraphrased variants"
arxiv.org ↗
Dataset and code are available at github.com/nanzhi84/RMGAP
"Related data and code are available at https://github.com/nanzhi84/RMGAP"
arxiv.org ↗
Authors are Yangyang Zhou and Yi-Chen Li; paper published May 3, 2026
"AUTHORS: Yangyang Zhou, Yi-Chen Li PUBLISHED: 2026-05-03T11:45:08Z"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Acurácia de Modelos de Recompensa Atinge o Teto de 49% em Preferências do Mundo Real

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.