Time de Los Alamos Treina Modelo de 8B que Generaliza em Benchmarks de Raciocínio

Pesquisadores do Los Alamos National Laboratory publicaram um framework de pós-treinamento que substitui a recompensa escalar única comum em RLHF por uma pontuação multi-critério estruturada produzida por um juiz de IA. Um modelo ajustado com 8 bilhões de parâmetros melhora em quatro benchmarks externos de raciocínio nunca vistos durante o treinamento.

O artigo, "Rubric-Grounded Reinforcement Learning: Structured Judge Rewards for Generalizable Reasoning in Language Models", formaliza RL com rubrica. A qualidade em tarefas complexas se decompõe em uma checklist de critérios ponderados. Uma resposta técnica de qualidade deve estabelecer a conclusão correta, usar terminologia precisa, respeitar ressalvas metodológicas e conectar evidências a afirmações. RLHF padrão comprime tudo isso em um único pass/fail binário ou pontuação escalar. O novo framework preserva estrutura ao ter um juiz de IA congelado pontuar cada resposta critério por critério, depois agregar essas pontuações em uma recompensa normalizada que impulsiona o treinamento com Group Relative Policy Optimization (GRPO).

A instanciação usa um corpus derivado do Office of Scientific and Technical Information (OSTI) de aproximadamente 100.000 documentos científicos e técnicos. Documentos são convertidos offline em pares pergunta–rubrica: a rubrica decompõe a avaliação em critérios ponderados com elementos obrigatórios, guias de pontuação e sinais de verificação. Uma assimetria de informação é inserida no treinamento — a política recebe apenas a pergunta no momento de rollout, enquanto o juiz congelado pontua respostas usando a passagem de origem oculta e a rubrica. Isso força a política a internalizar padrões de raciocínio que satisfazem critérios fundamentados em vez de regurgitar a passagem. O modelo base, Llama-3.1-8B-Instruct, foi ajustado com GRPO contra este sinal.

Na avaliação de rubrica retida da mesma distribuição OSTI, a política ajustada por GRPO alcança 71,7% de recompensa normalizada dentro de seu domínio-alvo. O mesmo modelo melhora sobre a baseline Llama-3.1-8B-Instruct em GSM8K, MATH, GPQA Main e GPQA Diamond — quatro benchmarks totalmente fora do corpus de treinamento OSTI. A transferência entre domínios sugere que a otimização fundamentada em rubrica induz hábitos de raciocínio gerais — precisão, ligação de evidências, inferência estruturada — em vez de memorização de domínio.

Para empresas ajustando modelos em cargas de trabalho proprietárias, o caso é claro. RLHF padrão requer pares de preferência rotulados por humanos; RLAIF padrão substitui uma pontuação escalar gerada por modelo. RL com rubrica não requer nem comparações pareadas nem anotação por humanos por critério. Rubricas são sintetizadas offline de documentos existentes. Qualquer corpus que possa ser decomposto em pares pergunta–rubrica se torna um ambiente de treinamento — um caminho de baixo atrito para organizações com grandes bases de conhecimento proprietárias: contratos legais, diretrizes clínicas, especificações de engenharia, registros financeiros. Os autores identificam explicitamente Q&A técnico, sumarização clínica, elaboração de textos legais, avaliação pedagógica e revisão de código estruturada como domínios viáveis.

Há ressalvas. A avaliação cobre um modelo base em uma escala de parâmetros (8B). A formulação de vantagem GRPO assume que pontuações por critério podem ser agregadas em vantagens relativas ao grupo sem destruir a fidelidade de crédito parcial. O juiz congelado deve condicionar corretamente na passagem oculta e na rubrica; a qualidade do juiz se torna um teto na qualidade da recompensa de uma forma que não ocorre em configurações binárias de verificador.

O framework é agnóstico quanto a domínio por construção, e o código do artigo e pipeline de dados derivado de OSTI são posicionados como diretamente replicáveis. A questão prática para equipes de engenharia de IA é se seu domínio tem documentação estruturada suficiente para gerar rubricas em escala. Para a maioria de bases de conhecimento da Fortune 500, a resposta é sim. Sinais de recompensa binários sempre foram um artefato de compressão. Este é um caminho concreto para desfazer essa compressão sem exigir um pipeline de anotação humana.

Sources

The framework formalizes rubric-grounded RL: a framework in which the policy is optimized against a structured, multi-criterion reward produced by a frozen LLM judge
"We formalize rubric-grounded reinforcement learning (RL): a framework in which the policy is optimized against a structured, multi-criterion reward produced by a frozen LLM judge that conditions on auxiliary grounding the policy never sees."
arxiv.org ↗
Partial-credit optimization signal instead of binary outcome or single holistic score
"decomposing reward into weighted, verifiable criteria and using an LLM judge to score them provides a partial-credit optimization signal: instead of a binary outcome or a single holistic score, each response is graded along multiple task-specific criteria."
arxiv.org ↗
OSTI-derived corpus of roughly 100,000 scientific and technical documents used to derive rubrics
"We instantiate the framework by deriving rubrics from an Office of Scientific and Technical Information (OSTI)-derived corpus of roughly 100,000 scientific and technical documents"
arxiv.org ↗
Base model is Llama-3.1-8B-Instruct trained with Group Relative Policy Optimization (GRPO)
"training Llama-3.1-8B-Instruct with Group Relative Policy Optimization (GRPO)"
arxiv.org ↗
The GRPO-tuned model achieves 71.7% normalized reward on held-out rubric evaluation
"With GRPO-based training, the model achieves 71.7% normalized reward on held-out rubric evaluation."
arxiv.org ↗
The GRPO-tuned policy improves over the base model on GSM8K, MATH, GPQA Main, and GPQA Diamond — benchmarks not derived from the training corpus
"The GRPO-tuned policy also improves over the base model on four reasoning benchmarks not derived from the training corpus—GSM8K, MATH, GPQA Main, and GPQA Diamond."
arxiv.org ↗
Information asymmetry: policy sees only the question at inference time; judge has access to the hidden source passage and rubric
"During training the policy answers each question without the source passage; a frozen judge scores each response with the passage and rubric. This information asymmetry encourages the policy to learn response patterns that satisfy grounded criteria, rather than relying on access to the source passage at rollout time."
arxiv.org ↗
Framework is domain-agnostic and applies to technical Q&A, clinical summarization, legal drafting, pedagogical assessment, and structured code review
"The framework is domain-agnostic: any task whose quality is plausibly written as a checklist of weighted criteria (technical Q&A, clinical summarization, legal drafting, pedagogical assessment, structured code review) admits a rubric-grounded reward."
arxiv.org ↗
Scalable instantiation produces RL training data without per-criterion human annotation
"A scalable instantiation, document-derived rubrics, that produces RL training data without per-criterion human annotation"
arxiv.org ↗
Structured, document-grounded rewards improve held-out rubric performance and induce transferable reasoning behaviors
"These results provide evidence that structured, document-grounded rewards can improve held-out rubric performance and induce transferable reasoning behaviors beyond the corpus used to construct the training environment."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Time de Los Alamos Treina Modelo de 8B que Generaliza em Benchmarks de Raciocínio

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.