RubricEM do Google treina agentes de pesquisa sem ground truth

Pesquisadores do Google Cloud AI Research e da Universidade de Illinois Urbana-Champaign lançaram RubricEM em 11 de maio de 2026, um framework de aprendizado por reforço que treina agentes profundos de pesquisa em saídas abertas sem respostas ground-truth. Isso resolve um bloqueio central: a maioria do treinamento RL funciona para matemática e código com verificação de correspondência exata, mas falha em tarefas de síntese de longa forma como relatórios de pesquisa onde não existe uma única resposta correta.

RubricEM encena o treinamento em quatro passos explícitos: planejamento, pesquisa, revisão e síntese de resposta. No início de cada tentativa, o agente gera uma rubrica específica da tarefa. Essas rubricas então orientam cada parte da trajetória—decisões de busca, síntese e o sinal de feedback do juiz. Isso converte um rollout longo e difícil de creditar em uma sequência de decisões menores condicionadas pela rubrica.

Atribuição de crédito usa Stage-Structured GRPO, uma variante de Group Relative Policy Optimization. Em vez de uma pontuação terminal única, cada um dos quatro estágios recebe seu próprio julgamento de rubrica. Pontuações específicas do estágio dão ao otimizador um sinal mais denso e refinado enquanto permanecem sem crítico.

O segundo componente principal é uma meta-política de reflexão. Construída na mesma arquitetura, ela ingere trajetórias pontuadas e as destila em lições explícitas e baseadas em texto. Diferentemente do pós-treinamento padrão que bloqueia insights apenas nos pesos, a meta-política de reflexão expõe orientação reutilizável e fundamentada em rubrica para tentativas futuras.

RubricEM-8B supera modelos de pesquisa comparáveis de peso aberto e se aproxima de sistemas proprietários como Gemini Deep Research e deep research product da OpenAI em quatro benchmarks de pesquisa de longa forma.

Para arquitetos de IA empresariais, RubricEM identifica três pontos de adoção. Primeiro, o padrão rubrica-como-scaffold aplica-se a qualquer workflow agentic com critérios de qualidade não-binários—análise de contratos, sumarização regulatória, due diligence técnica. Segundo, as recompensas específicas do estágio do SS-GRPO se integram aos setups de treinamento GRPO existentes sem adicionar um crítico aprendido. Terceiro, a meta-política de reflexão acumula experiência estruturada em execuções de treinamento em vez de perder insights para parâmetros do modelo.

O artigo inclui análises de ablação isolando quais componentes impulsionam ganhos. Questões abertas permanecem: os quatro benchmarks são não especificados por nome em porções publicamente disponíveis, e rubricas mal especificadas no início do treinamento poderiam se propagar downstream através do buffer de rubrica em evolução.

Sources

RubricEM is a rubric-guided reinforcement learning framework that combines stagewise policy decomposition with reflection-based meta-policy training, published May 11 2026
"we introduce RubricEM, a rubric-guided reinforcement learning framework that combines stagewise policy decomposition with reflection-based meta-policy training"
arxiv.org ↗
RubricEM was developed by researchers from Google Cloud AI Research and the University of Illinois Urbana-Champaign
"This work was done while Gaotang Li interned at Google Cloud AI Research. RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards Gaotang Li University of Illinois Urbana-Champaign Bhavana Dalvi Mishra Google Cloud AI Research"
arxiv.org ↗
Deep research agents produce outputs that lack ground-truth answers, their trajectories span many tool-augmented decisions, and standard post-training offers little mechanism for turning past attempts into reusable experience
"Their outputs lack ground-truth answers, their trajectories span many tool-augmented decisions, and standard post-training offers little mechanism for turning past attempts into reusable experience."
arxiv.org ↗
Prior approaches relied on verifiable search proxies or high-quality imitation data, including systems such as Gemini and OpenAI's deep research
"proprietary systems such as Gemini and OpenAI's deep research reveal little about their methodology, while most existing efforts rely on verifiable search proxies or high-quality imitation data"
arxiv.org ↗
RubricEM makes research trajectories stage-aware by conditioning planning, evidence gathering, review, and synthesis on self-generated rubrics
"RubricEM first makes research trajectories stage-aware by conditioning planning, evidence gathering, review, and synthesis on self-generated rubrics."
arxiv.org ↗
Stage-Structured GRPO scores Plan, Research, Review, and Answer stages with stage-specific rubrics, providing denser semantic feedback for long-horizon optimization
"It then assigns credit with Stage-Structured GRPO, which uses stagewise rubric judgments to provide denser semantic feedback for long-horizon optimization."
arxiv.org ↗
RubricEM trains a shared-backbone reflection meta-policy that distills judged trajectories into reusable rubric-grounded guidance for future attempts
"RubricEM trains a shared-backbone reflection meta-policy that distills judged trajectories into reusable rubric-grounded guidance for future attempts."
arxiv.org ↗
RubricEM-8B outperforms comparable open models and approaches proprietary deep-research systems across four long-form research benchmarks
"The resulting RubricEM-8B achieves strong performance across four representative long-form research benchmarks, outperforming comparable open models and approaching proprietary deep-research systems."
arxiv.org ↗
The RubricEM name reflects an Expectation-Maximization inspired view where rubrics estimate the latent structure of a research task and training maximizes policy and meta-policy under rubric-conditioned estimates
"The name RubricEM reflects an Expectation–Maximization (EM)-inspired estimate–maximize view: the latent structure of an open-ended research task—what matters, where credit belongs, and what should be remembered—is estimated through rubrics, which condition policy reasoning, judge scoring, and memory evolution."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

RubricEM do Google treina agentes de pesquisa sem ground truth

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.