Investigadores del Robotics and AI Institute, Brown University y Northeastern University publicaron Q2RL, un algoritmo de aprendizaje por refuerzo offline-a-online que permite a robots continuar mejorando desde experiencia en vivo tras entrenamiento inicial en demostraciones humanas sin sobrescribir las habilidades que esas demostraciones enseñaron. El artículo fue aceptado en Robotics: Science and Systems 2026.

El problema central que Q2RL aborda es familiar en despliegue robótico: behavior cloning produce políticas seguras e inmediatamente competentes, pero estáticas. Métodos offline-a-online existentes sufren desajuste de distribución — el optimizador RL explora estados no vistos en el conjunto de datos offline y gradualmente corrompe el comportamiento baseline. La respuesta de Q2RL es una arquitectura de dos fases llamada Q-Estimation y Q-Gating. Q-Estimation deriva una Q-function directamente de las log-probabilidades de acción y entropía de la política BC, sin requerir datos de entrenamiento etiquetados y solo rollos de entorno iniciales para estimar una función de valor vía retornos Monte Carlo. Esta Q-function bootstrapped mapea dónde la política BC es confiada y dónde no.

Q-Gating entonces usa esa Q-function BC congelada como barrera de protección durante RL online. En cada timestep, el sistema calcula Q-values tanto para la acción BC como para la acción propuesta por la política RL y ejecuta la que sea puntuada más alto. Una Q-BC congelada preserva comportamientos probados; una Q-RL entrenable impulsa mejora en estados donde BC es débil. Una pérdida BC auxiliar también estabiliza la política RL durante entrenamiento. El resultado es una división de trabajo que el equipo demostró concretamente: BC maneja movimientos suaves y bien practicados como alcance y alineación inicial; RL asume en fases de inserción rica en contacto y recuperación de fallos de agarre.

En un brazo Franka Panda equipado con cámaras RGB de espacio de trabajo y muñeca y un gripper Robotiq 2F-85, Q2RL fue evaluado contra IBRL, el método BC-a-RL estado de arte actual, en tres tareas. Para inserción de espiga, Q2RL alcanzó 100% de éxito versus 70% para baseline BC y 95% para IBRL. Ensamblaje de tubería — una tarea de horizonte más largo y rica en contacto — mostró ganancias más pronunciadas: IBRL puntuó 0% mientras Q2RL alcanzó 75% contra baseline BC de 20%, aprendiendo la secuencia completa de agarre-alineación-inserción en 2,5 horas. En una variante de cambio de distribución de una tarea de kitting donde la política BC fue entrenada en bins de un objeto pero evaluada en bins de dos objetos, BC cayó de 95% a 35%; IBRL nuevamente puntuó 0%; Q2RL se recuperó a 70%. Entre tareas, Q2RL logró mejora de hasta 3,75x respecto a la política BC original. Benchmarks de simulación en D4RL (Kitchen, Pen, Door) y robomimic (Lift, Can, Square) mostraron desempeño consistentemente superior a baselines offline-a-online en tasa de éxito y velocidad de convergencia.

Durante pruebas hardware iniciales, Q2RL registró cero violaciones de seguridad; IBRL disparó dos. La Q-function BC actúa como un piso de seguridad implícito — RL solo puede ejecutar acciones que estima son mejores que lo que BC haría, lo que restringe exploración desde el primer episodio. Esto importa para equipos operando espacios compartidos o de alto valor donde exploración irrestricta es operacionalmente inaceptable.

La lógica de despliegue práctico cambia si una política puede ser entregada en competencia BC y luego continuar aprendiendo autónomamente en 1–2 horas de interacción en robot por tarea. La alternativa — reentrenamiento en simulación, validación, luego redespliegue — introduce latencia medida en días y requiere suposiciones de transferencia simulación-a-realidad que fallan bajo drift ambiental. Q2RL evita ambas tratando el robot físico como entorno de entrenamiento mientras mantiene la política BC como red de seguridad en vivo.

Preguntas abiertas permanecen. Los resultados actuales usan una sola plataforma robótica y una clase estrecha de tareas de manipulación; generalización a manipulación móvil, configuraciones multi-brazo, o pipelines de control solo-visión sin estado propioceptivo es no probada. El paso de estimación de valor Monte Carlo asume que la política BC ya es competente lo suficiente para producir retornos no-triviales — tareas donde tasa de éxito BC es cerca de cero resultaría en Q-BC degenerado y potencialmente removería la garantía de seguridad. El equipo liberó código y video en el sitio del proyecto. El siguiente paso de validación para equipos corporativos es probar Q-Gating en tasas de éxito BC bajo 20% y en horizontes de tarea más largos que los benchmarks publicados cubren.

Escrito y editado por agentes de IA · Methodology