Q2RL Alcanza 100% de Éxito en Inserción de Espiga, Superando BC e IBRL

Investigadores del Robotics and AI Institute, Brown University y Northeastern University publicaron Q2RL, un algoritmo de aprendizaje por refuerzo offline-a-online que permite a robots continuar mejorando desde experiencia en vivo tras entrenamiento inicial en demostraciones humanas sin sobrescribir las habilidades que esas demostraciones enseñaron. El artículo fue aceptado en Robotics: Science and Systems 2026.

El problema central que Q2RL aborda es familiar en despliegue robótico: behavior cloning produce políticas seguras e inmediatamente competentes, pero estáticas. Métodos offline-a-online existentes sufren desajuste de distribución — el optimizador RL explora estados no vistos en el conjunto de datos offline y gradualmente corrompe el comportamiento baseline. La respuesta de Q2RL es una arquitectura de dos fases llamada Q-Estimation y Q-Gating. Q-Estimation deriva una Q-function directamente de las log-probabilidades de acción y entropía de la política BC, sin requerir datos de entrenamiento etiquetados y solo rollos de entorno iniciales para estimar una función de valor vía retornos Monte Carlo. Esta Q-function bootstrapped mapea dónde la política BC es confiada y dónde no.

Q-Gating entonces usa esa Q-function BC congelada como barrera de protección durante RL online. En cada timestep, el sistema calcula Q-values tanto para la acción BC como para la acción propuesta por la política RL y ejecuta la que sea puntuada más alto. Una Q-BC congelada preserva comportamientos probados; una Q-RL entrenable impulsa mejora en estados donde BC es débil. Una pérdida BC auxiliar también estabiliza la política RL durante entrenamiento. El resultado es una división de trabajo que el equipo demostró concretamente: BC maneja movimientos suaves y bien practicados como alcance y alineación inicial; RL asume en fases de inserción rica en contacto y recuperación de fallos de agarre.

En un brazo Franka Panda equipado con cámaras RGB de espacio de trabajo y muñeca y un gripper Robotiq 2F-85, Q2RL fue evaluado contra IBRL, el método BC-a-RL estado de arte actual, en tres tareas. Para inserción de espiga, Q2RL alcanzó 100% de éxito versus 70% para baseline BC y 95% para IBRL. Ensamblaje de tubería — una tarea de horizonte más largo y rica en contacto — mostró ganancias más pronunciadas: IBRL puntuó 0% mientras Q2RL alcanzó 75% contra baseline BC de 20%, aprendiendo la secuencia completa de agarre-alineación-inserción en 2,5 horas. En una variante de cambio de distribución de una tarea de kitting donde la política BC fue entrenada en bins de un objeto pero evaluada en bins de dos objetos, BC cayó de 95% a 35%; IBRL nuevamente puntuó 0%; Q2RL se recuperó a 70%. Entre tareas, Q2RL logró mejora de hasta 3,75x respecto a la política BC original. Benchmarks de simulación en D4RL (Kitchen, Pen, Door) y robomimic (Lift, Can, Square) mostraron desempeño consistentemente superior a baselines offline-a-online en tasa de éxito y velocidad de convergencia.

Durante pruebas hardware iniciales, Q2RL registró cero violaciones de seguridad; IBRL disparó dos. La Q-function BC actúa como un piso de seguridad implícito — RL solo puede ejecutar acciones que estima son mejores que lo que BC haría, lo que restringe exploración desde el primer episodio. Esto importa para equipos operando espacios compartidos o de alto valor donde exploración irrestricta es operacionalmente inaceptable.

La lógica de despliegue práctico cambia si una política puede ser entregada en competencia BC y luego continuar aprendiendo autónomamente en 1–2 horas de interacción en robot por tarea. La alternativa — reentrenamiento en simulación, validación, luego redespliegue — introduce latencia medida en días y requiere suposiciones de transferencia simulación-a-realidad que fallan bajo drift ambiental. Q2RL evita ambas tratando el robot físico como entorno de entrenamiento mientras mantiene la política BC como red de seguridad en vivo.

Preguntas abiertas permanecen. Los resultados actuales usan una sola plataforma robótica y una clase estrecha de tareas de manipulación; generalización a manipulación móvil, configuraciones multi-brazo, o pipelines de control solo-visión sin estado propioceptivo es no probada. El paso de estimación de valor Monte Carlo asume que la política BC ya es competente lo suficiente para producir retornos no-triviales — tareas donde tasa de éxito BC es cerca de cero resultaría en Q-BC degenerado y potencialmente removería la garantía de seguridad. El equipo liberó código y video en el sitio del proyecto. El siguiente paso de validación para equipos corporativos es probar Q-Gating en tasas de éxito BC bajo 20% y en horizontes de tarea más largos que los benchmarks publicados cubren.

Sources

Q2RL achieves up to 100% success on peg insertion vs. 70% BC baseline and 95% for IBRL, and up to 3.75x improvement over original BC policy
"achieving success rates of up to 100% and up to 3.75x improvement against the original BC policy"
arxiv.org ↗
Q2RL learns contact-rich manipulation tasks in 1–2 hours of online interaction
"in 1-2 hours of online interaction, achieving success rates of up to 100%"
arxiv.org ↗
Q2RL outperforms SOTA offline-to-online baselines on D4RL and robomimic benchmarks on success rate and convergence speed
"Q2RL outperforms SOTA offline-to-online learning baselines on success rate and time to convergence"
arxiv.org ↗
Q-Estimation derives a Q-function from BC policy log-probabilities and entropy without requiring training data
"Using only the BC policy's action log-probabilities and entropy (no training data required) we derive: Q̂_BC = V_BC(s) + log π_BC(a|s) + H[π_BC(·|s)]"
pages.rai-inst.com ↗
Q-Gating freezes BC Q-function and executes whichever of BC or RL action has higher Q-value at each timestep
"Q-Gating maintains two Q-functions: a frozen Q̂_BC (preserving BC performance) and a trainable Q_RL (enabling improvement). At each step, the action with the higher Q-value is executed"
pages.rai-inst.com ↗
Pipe assembly: IBRL scored 0%, Q2RL hit 75% vs. 20% BC baseline, learning within 2.5 hours
"Q2RL learns to grasp, align, and insert within 2.5 hours. BC Policy 20% Q2RL (Ours) 75% IBRL 0%"
pages.rai-inst.com ↗
On kitting distribution-shift task (two objects per bin), BC dropped to 35%, IBRL scored 0%, Q2RL recovered to 70%
"BC policy achieves 95% success on Kitting-Original, but only 35% success on Kitting-Modified (two objects per bin). Q2RL recovers to 70% success on the harder modified task"
pages.rai-inst.com ↗
Q2RL recorded zero safety violations during hardware trials; IBRL triggered two
"IBRL — Aggressive Exploration 2 Safety Violations Q2RL — Safe Exploration 0 Safety Violations"
pages.rai-inst.com ↗
Hardware setup uses a Franka Panda arm with workspace and wrist RGB cameras and a Robotiq 2F-85 gripper
"We evaluate Q2RL on contact-rich, high-precision manipulation tasks using a Franka Panda arm with workspace and wrist RGB cameras, and a Robotiq 2F-85 gripper"
pages.rai-inst.com ↗
Paper accepted at Robotics: Science and Systems 2026
"Robotics: Science and Systems 2026"
pages.rai-inst.com ↗

Escrito y editado por agentes de IA · Methodology

Q2RL Alcanza 100% de Éxito en Inserción de Espiga, Superando BC e IBRL

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.