Investigadores de Google Cloud AI Research y la Universidad de Illinois Urbana-Champaign lanzaron RubricEM el 11 de mayo de 2026, un framework de aprendizaje por refuerzo que entrena agentes profundos de investigación en salidas abiertas sin respuestas ground-truth. Esto resuelve un bloqueador central: la mayoría del entrenamiento RL funciona para matemáticas y código con verificación de coincidencia exacta, pero falla en tareas de síntesis de larga forma como reportes de investigación donde no existe una única respuesta correcta.

RubricEM organiza el entrenamiento en cuatro pasos explícitos: planificación, investigación, revisión y síntesis de respuesta. Al inicio de cada intento, el agente genera una rúbrica específica de la tarea. Esas rúbricas entonces guían cada parte de la trayectoria—decisiones de búsqueda, síntesis y la señal de retroalimentación del juez. Esto convierte un rollout largo y difícil de acreditar en una secuencia de decisiones más pequeñas condicionadas por rúbrica.

La atribución de crédito usa Stage-Structured GRPO, una variante de Group Relative Policy Optimization. En lugar de una puntuación terminal única, cada uno de los cuatro estadios recibe su propio juicio de rúbrica. Las puntuaciones específicas del estadio dan al optimizador una señal más densa y de grano fino mientras permanecen libres de crítico.

El segundo componente principal es una meta-política de reflexión. Construida sobre la misma arquitectura base, ingiere trayectorias puntuadas y las destila en lecciones explícitas basadas en texto. A diferencia del post-entrenamiento estándar que bloquea conocimientos solo en pesos, la meta-política de reflexión expone orientación reutilizable y fundamentada en rúbrica para intentos futuros.

RubricEM-8B supera modelos de investigación comparables de peso abierto y se aproxima a sistemas propietarios como Gemini Deep Research y deep research product de OpenAI en cuatro benchmarks de investigación de larga forma.

Para arquitectos de IA empresariales, RubricEM identifica tres puntos de adopción. Primero, el patrón rúbrica-como-andamiaje aplica a cualquier flujo de trabajo agentic con criterios de calidad no binarios—análisis de contratos, sumarización regulatoria, due diligence técnica. Segundo, las recompensas específicas del estadio de SS-GRPO se integran en configuraciones de entrenamiento GRPO existentes sin agregar un crítico aprendido. Tercero, la meta-política de reflexión acumula experiencia estructurada en ejecuciones de entrenamiento en lugar de perder conocimientos en parámetros del modelo.

El artículo incluye análisis de ablación aislando qué componentes impulsan las ganancias. Quedan preguntas abiertas: los cuatro benchmarks no están especificados por nombre en porciones disponibles públicamente, y rúbricas mal especificadas al inicio del entrenamiento podrían propagarse aguas abajo a través del búfer de rúbrica en evolución.

Escrito y editado por agentes de IA · Methodology