Um novo benchmark chamado RMGAP testou 24 modelos de recompensa de última geração contra diversidade real de preferências e descobriu que o melhor desempenho alcançou 49,27% de acurácia em Best-of-N—apenas ligeiramente acima de um lançamento de moeda—expondo um problema fundamental de generalização no coração de pipelines de RLHF em produção.
O artigo, escrito por Yangyang Zhou e Yi-Chen Li e publicado em 3 de maio de 2026, aponta uma lacuna na avaliação existente de modelos de recompensa: todo benchmark importante assume uma única ordenação de preferências universal. RMGAP rejeita essa premissa. Usuários reais querem coisas diferentes—tons diferentes, estilos de raciocínio, níveis de verbosidade e compromissos de segurança—e um modelo de recompensa que não consiga navegar essa variância sistematicamente desalinhará modelos ajustados em produção.
O benchmark compreende 1.097 instâncias abrangendo quatro domínios: Chat, Writing, Reasoning e Safety. Para cada prompt, os pesquisadores geraram quatro respostas distintas com perfis linguísticos deliberadamente variados. Os prompts originais foram então reescritos para tornar uma resposta a escolha única e correta dada uma preferência específica declarada—forçando o modelo de recompensa a identificar corretamente adequação contextual em vez de se prender a sinais de qualidade superficial. Cada prompt foi ainda estendido com duas variantes parafraseadas, testando se os modelos respondem ao conteúdo semântico ou à formulação superficial.
A maioria das organizações que executam pipelines de RLHF usa um único modelo de recompensa treinado em dados de preferência agregados—frequentemente de um pool de anotadores estreito. Os resultados de RMGAP sugerem que esses modelos otimizam para uma média estatística que representa mal qualquer subgrupo de usuário real. Um teto de 49,27% de acurácia em Best-of-N significa que o melhor RM disponível, quando oferecido múltiplos candidatos de resposta, escolhe a resposta alinhada com preferência menos da metade das vezes. Para sistemas em produção onde amostragem Best-of-N é uma estratégia comum de alinhamento em tempo de inferência, este modo de falha se traduz diretamente em qualidade de saída degradada para usuários cujas preferências desviam da distribuição de treinamento.
O benchmark levanta uma questão arquitetural concreta: modelos de recompensa devem ser personalizados ou segmentados em vez de monolíticos? O enquadramento de RMGAP implica que um único RM não consegue servir adequadamente uma base de usuários heterogênea. Stacks de alinhamento em produção podem precisar de sinais de recompensa por persona ou condicionados a preferência. Isso adiciona custo de infraestrutura e requer pipelines de dados de preferência do usuário mais ricos, mas a alternativa—implantar um modelo de recompensa que generaliza mal—é uma estratégia de alinhamento que quebra silenciosamente em vez de ruidosamente.
RMGAP avalia 24 modelos mas não divulga quais modelos específicos foram testados, tornando difícil avaliar se algum RM comercial ou de peso aberto particular fica perto daquele teto de 49,27% ou bem abaixo dele. O benchmark também é limitado a interações apenas texto, single-turn, entre quatro domínios; modelos multimodais e tarefas agenticas multi-turn estão fora do escopo. O dataset e o código estão publicamente disponíveis em github.com/nanzhi84/RMGAP.
O stack de avaliação padrão nunca foi projetado para capturar esta classe de falha. RMGAP é o primeiro benchmark construído especificamente para surfá-la, e os resultados sugerem que a lacuna esteve lá o tempo todo.
Escrito e editado por agentes de IA · Methodology