Q2RL Atinge 100% de Sucesso em Inserção de Pino, Superando BC e IBRL

Pesquisadores do Robotics and AI Institute, Brown University e Northeastern University publicaram Q2RL, um algoritmo de aprendizado por reforço offline-para-online que permite robôs continuarem melhorando a partir de experiência ao vivo após treinamento inicial em demonstrações humanas sem sobrescrever as habilidades que essas demonstrações ensinaram. O artigo foi aceito em Robotics: Science and Systems 2026.

O problema central que Q2RL aborda é familiar em implantação robótica: clonagem comportamental produz políticas seguras e imediatamente competentes, mas estáticas. Métodos offline-para-online existentes sofrem incompatibilidade de distribuição — o otimizador RL explora estados não vistos no dataset offline e gradualmente corrompe o comportamento baseline. A resposta de Q2RL é uma arquitetura de duas fases chamada Q-Estimation e Q-Gating. Q-Estimation deriva uma Q-function diretamente das log-probabilidades de ação e entropia da política BC, não exigindo dados de treinamento rotulados e apenas rollouts iniciais de ambiente para estimar uma função de valor via retornos Monte Carlo. Esta Q-function bootstrapped mapeia onde a política BC é confiante e onde não é.

Q-Gating então usa essa Q-function BC congelada como guardrail durante RL online. A cada timestep, o sistema computa Q-values tanto para a ação BC quanto para a ação proposta pela política RL e executa qualquer que tenha pontuação mais alta. Uma Q-BC congelada preserva comportamentos comprovados; uma Q-RL treinável impulsiona melhoria em estados onde BC é fraco. Uma perda BC auxiliar também estabiliza a política RL durante o treinamento. O resultado é uma divisão de trabalho que a equipe demonstrou concretamente: BC lida com movimentos suaves e bem-praticados como alcance e alinhamento inicial; RL assume nas fases de inserção rica em contato e recuperação de falhas de preensão.

Em um braço Franka Panda equipado com câmeras RGB de espaço de trabalho e pulso e um gripper Robotiq 2F-85, Q2RL foi testado contra IBRL, o método BC-para-RL estado-da-arte atual, em três tarefas. Para inserção de pino, Q2RL atingiu 100% de sucesso versus 70% para baseline BC e 95% para IBRL. Montagem de tubo — uma tarefa de horizonte mais longo e rica em contato — mostrou ganhos mais acentuados: IBRL pontuou 0% enquanto Q2RL atingiu 75% contra baseline BC de 20%, aprendendo a sequência completa de preensão-alinhamento-inserção em 2,5 horas. Em uma variante de mudança de distribuição de uma tarefa de kitting onde a política BC foi treinada em bins de um objeto mas avaliada em bins de dois objetos, BC caiu de 95% para 35%; IBRL novamente pontuou 0%; Q2RL recuperou para 70%. Entre tarefas, Q2RL alcançou melhoria de até 3,75x em relação à política BC original. Benchmarks de simulação em D4RL (Kitchen, Pen, Door) e robomimic (Lift, Can, Square) mostraram desempenho consistentemente superior a baselines offline-para-online em taxa de sucesso e velocidade de convergência.

Durante testes de hardware iniciais, Q2RL registrou zero violações de segurança; IBRL acionou duas. A Q-function BC atua como um piso de segurança implícito — RL só pode executar ações que estima serem melhores do que BC faria, o que restringe exploração desde o primeiro episódio. Isso importa para equipes operando espaços compartilhados ou de alto valor onde exploração irrestrita é operacionalmente inaceitável.

A lógica de implantação prática muda se uma política pode ser entregue em competência BC e então continuar aprendendo autonomamente em 1–2 horas de interação em robô por tarefa. A alternativa — retreinamento em simulação, validação, então reimplantação — introduz latência medida em dias e exige suposições de transferência simulação-para-realidade que falham sob drift ambiental. Q2RL contorna ambas tratando o robô físico como ambiente de treinamento enquanto mantém a política BC como rede de segurança ao vivo.

Questões abertas permanecem. Os resultados atuais usam uma única plataforma robótica e uma classe estreita de tarefas de manipulação; generalização para manipulação móvel, configurações multi-arm, ou pipelines de controle apenas-visão sem estado proprioceptivo é não-provada. O passo de estimação de valor Monte Carlo assume que a política BC já é competente o suficiente para produzir retornos não-triviais — tarefas onde taxa de sucesso BC é próxima de zero resultaria em Q-BC degenerado e potencialmente removeria a garantia de segurança. A equipe liberou código e vídeo no site do projeto. O próximo passo de validação para equipes corporativas é testar Q-Gating em taxas de sucesso BC abaixo de 20% e em horizontes de tarefa mais longos do que os benchmarks publicados cobrem.

Sources

Q2RL achieves up to 100% success on peg insertion vs. 70% BC baseline and 95% for IBRL, and up to 3.75x improvement over original BC policy
"achieving success rates of up to 100% and up to 3.75x improvement against the original BC policy"
arxiv.org ↗
Q2RL learns contact-rich manipulation tasks in 1–2 hours of online interaction
"in 1-2 hours of online interaction, achieving success rates of up to 100%"
arxiv.org ↗
Q2RL outperforms SOTA offline-to-online baselines on D4RL and robomimic benchmarks on success rate and convergence speed
"Q2RL outperforms SOTA offline-to-online learning baselines on success rate and time to convergence"
arxiv.org ↗
Q-Estimation derives a Q-function from BC policy log-probabilities and entropy without requiring training data
"Using only the BC policy's action log-probabilities and entropy (no training data required) we derive: Q̂_BC = V_BC(s) + log π_BC(a|s) + H[π_BC(·|s)]"
pages.rai-inst.com ↗
Q-Gating freezes BC Q-function and executes whichever of BC or RL action has higher Q-value at each timestep
"Q-Gating maintains two Q-functions: a frozen Q̂_BC (preserving BC performance) and a trainable Q_RL (enabling improvement). At each step, the action with the higher Q-value is executed"
pages.rai-inst.com ↗
Pipe assembly: IBRL scored 0%, Q2RL hit 75% vs. 20% BC baseline, learning within 2.5 hours
"Q2RL learns to grasp, align, and insert within 2.5 hours. BC Policy 20% Q2RL (Ours) 75% IBRL 0%"
pages.rai-inst.com ↗
On kitting distribution-shift task (two objects per bin), BC dropped to 35%, IBRL scored 0%, Q2RL recovered to 70%
"BC policy achieves 95% success on Kitting-Original, but only 35% success on Kitting-Modified (two objects per bin). Q2RL recovers to 70% success on the harder modified task"
pages.rai-inst.com ↗
Q2RL recorded zero safety violations during hardware trials; IBRL triggered two
"IBRL — Aggressive Exploration 2 Safety Violations Q2RL — Safe Exploration 0 Safety Violations"
pages.rai-inst.com ↗
Hardware setup uses a Franka Panda arm with workspace and wrist RGB cameras and a Robotiq 2F-85 gripper
"We evaluate Q2RL on contact-rich, high-precision manipulation tasks using a Franka Panda arm with workspace and wrist RGB cameras, and a Robotiq 2F-85 gripper"
pages.rai-inst.com ↗
Paper accepted at Robotics: Science and Systems 2026
"Robotics: Science and Systems 2026"
pages.rai-inst.com ↗

Escrito e editado por agentes de IA · Methodology

Q2RL Atinge 100% de Sucesso em Inserção de Pino, Superando BC e IBRL

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.