RubricEM de Google entrena agentes de investigación sin ground truth

Investigadores de Google Cloud AI Research y la Universidad de Illinois Urbana-Champaign lanzaron RubricEM el 11 de mayo de 2026, un framework de aprendizaje por refuerzo que entrena agentes profundos de investigación en salidas abiertas sin respuestas ground-truth. Esto resuelve un bloqueador central: la mayoría del entrenamiento RL funciona para matemáticas y código con verificación de coincidencia exacta, pero falla en tareas de síntesis de larga forma como reportes de investigación donde no existe una única respuesta correcta.

RubricEM organiza el entrenamiento en cuatro pasos explícitos: planificación, investigación, revisión y síntesis de respuesta. Al inicio de cada intento, el agente genera una rúbrica específica de la tarea. Esas rúbricas entonces guían cada parte de la trayectoria—decisiones de búsqueda, síntesis y la señal de retroalimentación del juez. Esto convierte un rollout largo y difícil de acreditar en una secuencia de decisiones más pequeñas condicionadas por rúbrica.

La atribución de crédito usa Stage-Structured GRPO, una variante de Group Relative Policy Optimization. En lugar de una puntuación terminal única, cada uno de los cuatro estadios recibe su propio juicio de rúbrica. Las puntuaciones específicas del estadio dan al optimizador una señal más densa y de grano fino mientras permanecen libres de crítico.

El segundo componente principal es una meta-política de reflexión. Construida sobre la misma arquitectura base, ingiere trayectorias puntuadas y las destila en lecciones explícitas basadas en texto. A diferencia del post-entrenamiento estándar que bloquea conocimientos solo en pesos, la meta-política de reflexión expone orientación reutilizable y fundamentada en rúbrica para intentos futuros.

RubricEM-8B supera modelos de investigación comparables de peso abierto y se aproxima a sistemas propietarios como Gemini Deep Research y deep research product de OpenAI en cuatro benchmarks de investigación de larga forma.

Para arquitectos de IA empresariales, RubricEM identifica tres puntos de adopción. Primero, el patrón rúbrica-como-andamiaje aplica a cualquier flujo de trabajo agentic con criterios de calidad no binarios—análisis de contratos, sumarización regulatoria, due diligence técnica. Segundo, las recompensas específicas del estadio de SS-GRPO se integran en configuraciones de entrenamiento GRPO existentes sin agregar un crítico aprendido. Tercero, la meta-política de reflexión acumula experiencia estructurada en ejecuciones de entrenamiento en lugar de perder conocimientos en parámetros del modelo.

El artículo incluye análisis de ablación aislando qué componentes impulsan las ganancias. Quedan preguntas abiertas: los cuatro benchmarks no están especificados por nombre en porciones disponibles públicamente, y rúbricas mal especificadas al inicio del entrenamiento podrían propagarse aguas abajo a través del búfer de rúbrica en evolución.

Sources

RubricEM is a rubric-guided reinforcement learning framework that combines stagewise policy decomposition with reflection-based meta-policy training, published May 11 2026
"we introduce RubricEM, a rubric-guided reinforcement learning framework that combines stagewise policy decomposition with reflection-based meta-policy training"
arxiv.org ↗
RubricEM was developed by researchers from Google Cloud AI Research and the University of Illinois Urbana-Champaign
"This work was done while Gaotang Li interned at Google Cloud AI Research. RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards Gaotang Li University of Illinois Urbana-Champaign Bhavana Dalvi Mishra Google Cloud AI Research"
arxiv.org ↗
Deep research agents produce outputs that lack ground-truth answers, their trajectories span many tool-augmented decisions, and standard post-training offers little mechanism for turning past attempts into reusable experience
"Their outputs lack ground-truth answers, their trajectories span many tool-augmented decisions, and standard post-training offers little mechanism for turning past attempts into reusable experience."
arxiv.org ↗
Prior approaches relied on verifiable search proxies or high-quality imitation data, including systems such as Gemini and OpenAI's deep research
"proprietary systems such as Gemini and OpenAI's deep research reveal little about their methodology, while most existing efforts rely on verifiable search proxies or high-quality imitation data"
arxiv.org ↗
RubricEM makes research trajectories stage-aware by conditioning planning, evidence gathering, review, and synthesis on self-generated rubrics
"RubricEM first makes research trajectories stage-aware by conditioning planning, evidence gathering, review, and synthesis on self-generated rubrics."
arxiv.org ↗
Stage-Structured GRPO scores Plan, Research, Review, and Answer stages with stage-specific rubrics, providing denser semantic feedback for long-horizon optimization
"It then assigns credit with Stage-Structured GRPO, which uses stagewise rubric judgments to provide denser semantic feedback for long-horizon optimization."
arxiv.org ↗
RubricEM trains a shared-backbone reflection meta-policy that distills judged trajectories into reusable rubric-grounded guidance for future attempts
"RubricEM trains a shared-backbone reflection meta-policy that distills judged trajectories into reusable rubric-grounded guidance for future attempts."
arxiv.org ↗
RubricEM-8B outperforms comparable open models and approaches proprietary deep-research systems across four long-form research benchmarks
"The resulting RubricEM-8B achieves strong performance across four representative long-form research benchmarks, outperforming comparable open models and approaching proprietary deep-research systems."
arxiv.org ↗
The RubricEM name reflects an Expectation-Maximization inspired view where rubrics estimate the latent structure of a research task and training maximizes policy and meta-policy under rubric-conditioned estimates
"The name RubricEM reflects an Expectation–Maximization (EM)-inspired estimate–maximize view: the latent structure of an open-ended research task—what matters, where credit belongs, and what should be remembered—is estimated through rubrics, which condition policy reasoning, judge scoring, and memory evolution."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

RubricEM de Google entrena agentes de investigación sin ground truth

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.