Equipo de Los Alamos Entrena Modelo de 8B que Generaliza en Benchmarks de Razonamiento

Investigadores del Los Alamos National Laboratory publicaron un marco de post-entrenamiento que reemplaza la recompensa escalar única común en RLHF por una puntuación multicriterio estructurada producida por un juez de IA. Un modelo ajustado con 8 mil millones de parámetros mejora en cuatro benchmarks externos de razonamiento en los que nunca fue entrenado.

El artículo, "Rubric-Grounded Reinforcement Learning: Structured Judge Rewards for Generalizable Reasoning in Language Models", formaliza RL fundamentado en rúbrica. La calidad en tareas complejas se descompone en una lista de verificación de criterios ponderados. Una respuesta técnica de calidad debe establecer la conclusión correcta, usar terminología precisa, respetar advertencias metodológicas y conectar evidencia con afirmaciones. RLHF estándar comprime todo eso en un único resultado binario de aprobación/reprobación o puntuación escalar. El nuevo marco preserva la estructura al tener un juez de IA congelado calificar cada respuesta criterio por criterio, luego agregar esas puntuaciones en una recompensa normalizada que impulsa el entrenamiento de Group Relative Policy Optimization (GRPO).

La instanciación utiliza un corpus derivado de la Office of Scientific and Technical Information (OSTI) de aproximadamente 100.000 documentos científicos y técnicos. Los documentos se convierten sin conexión en pares pregunta-rúbrica: la rúbrica descompone la evaluación en criterios ponderados con elementos requeridos, guías de puntuación y pistas de verificación. Una asimetría de información se incorpora en el entrenamiento — la política recibe solo la pregunta en tiempo de ejecución, mientras que el juez congelado califica respuestas usando el pasaje de origen oculto y la rúbrica. Esto obliga a la política a internalizar patrones de razonamiento que satisfacen criterios fundamentados en lugar de regurgitar el pasaje. El modelo base, Llama-3.1-8B-Instruct, se ajustó con GRPO contra esta señal.

En la evaluación de rúbrica retenida extraída de la misma distribución OSTI, la política ajustada por GRPO logra 71,7% de recompensa normalizada dentro de su dominio objetivo. El mismo modelo mejora sobre la línea base Llama-3.1-8B-Instruct en GSM8K, MATH, GPQA Main y GPQA Diamond — cuatro benchmarks completamente fuera del corpus de entrenamiento OSTI. La transferencia entre dominios sugiere que la optimización fundamentada en rúbrica induce hábitos de razonamiento generales — precisión, vinculación de evidencia, inferencia estructurada — en lugar de memorización de dominio.

Para empresas que ajustan modelos en cargas de trabajo propietarias, el caso es claro. RLHF estándar requiere pares de preferencia etiquetados por humanos; RLAIF estándar sustituye una puntuación escalar generada por modelo. RL fundamentado en rúbrica no requiere ni comparaciones por pares ni anotación por humanos por criterio. Las rúbricas se sintetizan sin conexión a partir de documentos existentes. Cualquier corpus que pueda descomponerse en pares pregunta-rúbrica se convierte en un entorno de entrenamiento — una ruta de bajo roce para organizaciones con grandes bases de conocimiento propietarias: contratos legales, directrices clínicas, especificaciones de ingeniería, presentaciones financieras. Los autores identifican explícitamente Q&A técnico, sumarización clínica, redacción legal, evaluación pedagógica y revisión de código estructurada como dominios viables.

Hay advertencias. La evaluación cubre un modelo base en una escala de parámetros (8B). La formulación de ventaja GRPO asume que las puntuaciones por criterio pueden agregarse en ventajas relativas al grupo sin destruir la fidelidad de crédito parcial. El juez congelado debe condicionar correctamente en el pasaje oculto y la rúbrica; la calidad del juez se convierte en un techo en la calidad de la recompensa de una manera que no ocurre en configuraciones de verificador binario.

El marco es agnóstico respecto al dominio por construcción, y el código del artículo y la canalización de datos derivada de OSTI se posicionan como directamente replicables. La pregunta práctica para los equipos de ingeniería de IA es si su dominio tiene suficiente documentación estructurada para generar rúbricas a escala. Para la mayoría de bases de conocimiento de Fortune 500, la respuesta es sí. Las señales de recompensa binarias siempre fueron un artefacto de compresión. Este es un camino concreto para deshacer esa compresión sin requerir una canalización de anotación humana.

Sources

The framework formalizes rubric-grounded RL: a framework in which the policy is optimized against a structured, multi-criterion reward produced by a frozen LLM judge
"We formalize rubric-grounded reinforcement learning (RL): a framework in which the policy is optimized against a structured, multi-criterion reward produced by a frozen LLM judge that conditions on auxiliary grounding the policy never sees."
arxiv.org ↗
Partial-credit optimization signal instead of binary outcome or single holistic score
"decomposing reward into weighted, verifiable criteria and using an LLM judge to score them provides a partial-credit optimization signal: instead of a binary outcome or a single holistic score, each response is graded along multiple task-specific criteria."
arxiv.org ↗
OSTI-derived corpus of roughly 100,000 scientific and technical documents used to derive rubrics
"We instantiate the framework by deriving rubrics from an Office of Scientific and Technical Information (OSTI)-derived corpus of roughly 100,000 scientific and technical documents"
arxiv.org ↗
Base model is Llama-3.1-8B-Instruct trained with Group Relative Policy Optimization (GRPO)
"training Llama-3.1-8B-Instruct with Group Relative Policy Optimization (GRPO)"
arxiv.org ↗
The GRPO-tuned model achieves 71.7% normalized reward on held-out rubric evaluation
"With GRPO-based training, the model achieves 71.7% normalized reward on held-out rubric evaluation."
arxiv.org ↗
The GRPO-tuned policy improves over the base model on GSM8K, MATH, GPQA Main, and GPQA Diamond — benchmarks not derived from the training corpus
"The GRPO-tuned policy also improves over the base model on four reasoning benchmarks not derived from the training corpus—GSM8K, MATH, GPQA Main, and GPQA Diamond."
arxiv.org ↗
Information asymmetry: policy sees only the question at inference time; judge has access to the hidden source passage and rubric
"During training the policy answers each question without the source passage; a frozen judge scores each response with the passage and rubric. This information asymmetry encourages the policy to learn response patterns that satisfy grounded criteria, rather than relying on access to the source passage at rollout time."
arxiv.org ↗
Framework is domain-agnostic and applies to technical Q&A, clinical summarization, legal drafting, pedagogical assessment, and structured code review
"The framework is domain-agnostic: any task whose quality is plausibly written as a checklist of weighted criteria (technical Q&A, clinical summarization, legal drafting, pedagogical assessment, structured code review) admits a rubric-grounded reward."
arxiv.org ↗
Scalable instantiation produces RL training data without per-criterion human annotation
"A scalable instantiation, document-derived rubrics, that produces RL training data without per-criterion human annotation"
arxiv.org ↗
Structured, document-grounded rewards improve held-out rubric performance and induce transferable reasoning behaviors
"These results provide evidence that structured, document-grounded rewards can improve held-out rubric performance and induce transferable reasoning behaviors beyond the corpus used to construct the training environment."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Equipo de Los Alamos Entrena Modelo de 8B que Generaliza en Benchmarks de Razonamiento

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.