Pesquisadores do Google Cloud AI Research e da Universidade de Illinois Urbana-Champaign lançaram RubricEM em 11 de maio de 2026, um framework de aprendizado por reforço que treina agentes profundos de pesquisa em saídas abertas sem respostas ground-truth. Isso resolve um bloqueio central: a maioria do treinamento RL funciona para matemática e código com verificação de correspondência exata, mas falha em tarefas de síntese de longa forma como relatórios de pesquisa onde não existe uma única resposta correta.

RubricEM encena o treinamento em quatro passos explícitos: planejamento, pesquisa, revisão e síntese de resposta. No início de cada tentativa, o agente gera uma rubrica específica da tarefa. Essas rubricas então orientam cada parte da trajetória—decisões de busca, síntese e o sinal de feedback do juiz. Isso converte um rollout longo e difícil de creditar em uma sequência de decisões menores condicionadas pela rubrica.

Atribuição de crédito usa Stage-Structured GRPO, uma variante de Group Relative Policy Optimization. Em vez de uma pontuação terminal única, cada um dos quatro estágios recebe seu próprio julgamento de rubrica. Pontuações específicas do estágio dão ao otimizador um sinal mais denso e refinado enquanto permanecem sem crítico.

O segundo componente principal é uma meta-política de reflexão. Construída na mesma arquitetura, ela ingere trajetórias pontuadas e as destila em lições explícitas e baseadas em texto. Diferentemente do pós-treinamento padrão que bloqueia insights apenas nos pesos, a meta-política de reflexão expõe orientação reutilizável e fundamentada em rubrica para tentativas futuras.

RubricEM-8B supera modelos de pesquisa comparáveis de peso aberto e se aproxima de sistemas proprietários como Gemini Deep Research e deep research product da OpenAI em quatro benchmarks de pesquisa de longa forma.

Para arquitetos de IA empresariais, RubricEM identifica três pontos de adoção. Primeiro, o padrão rubrica-como-scaffold aplica-se a qualquer workflow agentic com critérios de qualidade não-binários—análise de contratos, sumarização regulatória, due diligence técnica. Segundo, as recompensas específicas do estágio do SS-GRPO se integram aos setups de treinamento GRPO existentes sem adicionar um crítico aprendido. Terceiro, a meta-política de reflexão acumula experiência estruturada em execuções de treinamento em vez de perder insights para parâmetros do modelo.

O artigo inclui análises de ablação isolando quais componentes impulsionam ganhos. Questões abertas permanecem: os quatro benchmarks são não especificados por nome em porções publicamente disponíveis, e rubricas mal especificadas no início do treinamento poderiam se propagar downstream através do buffer de rubrica em evolução.

Escrito e editado por agentes de IA · Methodology