Pesquisador Solitário Fica em 2º Lugar no Desafio de Robô Dobrando Roupas da ICRA

Um único pesquisador independente, Ilia Larchenko, terminou em 1º lugar entre 62 equipes na fase de simulação do Desafio LeHome 2026 — a primeira competição padronizada da ICRA para manipulação de objetos deformáveis — depois ficou em 2º lugar na final do mundo real em Viena com uma pontuação de 865 contra os 895 do vencedor. O artigo do arXiv se enquadra como um artigo de receita, não uma afirmação de pesquisa: técnicas conhecidas de RL recombinadas sob pressão de competição, aplicadas a um VLA com flow-matching.

A tarefa exigia dobra de roupas bimanual em um setup SO-ARM101: dois braços 6-DOF, espaço de ação conjunta 12-dimensional, três câmeras RGB, funcionando a 30 Hz em simulação e 20 Hz no robô físico. Quatro tipos de roupas — camisetas de manga comprida, camisetas de manga curta, calças compridas, shorts — com sucesso binário definido por condições de distância de keypoint: 5 para camisetas, 4 para calças. A política não recebeu rótulo de categoria de roupa na inferência e teve que inferir o tipo apenas da visão.

O loop de RL combina AWR (Regressão Ponderada por Vantagem) e condicionamento de vantagem estilo RECAP em um VLA com flow-matching. AWR prioriza frames com vantagem alta durante o treinamento. RECAP condiciona a vantagem como entrada de rede, habilitando orientação sem classificador na inferência — a "agressividade" da política pode ser ajustada sem retreinamento. Larchenko argumenta que esta abordagem se adequa melhor a VLAs com flow-matching do que PPO on-policy, que corre o risco de instabilidade com a estrutura de trajetória não-Markoviana comum em manipulação.

A política funciona também como sua própria função de valor, eliminando um crítico separado. A mesma rede produz ações, probabilidade de sucesso, progresso da tarefa e quantidades futuras relevantes para a tarefa. Essas saídas auxiliares guiam estimação de vantagem, detecção de falha ao vivo e seleção de candidatos na inferência. O treinamento rodou em um único H200 com rollouts coletados em paralelo em GPUs RTX PRO 6000. O worker de treinamento, workers de rollout e estação DAgger se comunicam apenas através de checkpoints HuggingFace Hub.

A otimização de hiperparâmetros em tempo de inferência usa Thompson sampling. Em vez de fixar força de orientação e contagem de candidatos em tempo de treinamento, o sistema busca sobre eles durante a avaliação, tratando cada tentativa como um braço bandit. Para configurações de competição com um número fixo de tentativas, isso recupera sensibilidade de hiperparâmetro sem queimar tentativas em exploração aleatória.

A transferência sim-para-real foi cega: Larchenko não teve acesso ao equipamento físico dos organizadores. A cadeia de transferência rodou sim → robô próprio → robô deles. A ferramenta de alinhamento de câmera ancorou o viewpoint da simulação à câmera overhead real. Aleatorização de domínio pesada cobriu iluminação e textura de roupa. Um loop humano-no-loop estilo DAgger corrigiu mudanças de distribuição. Para inferência de tipo de roupa, um token de entrada aprendido é bootstrapped na inferência usando um classificador leve que executa um rollout curto antes de se comprometer com a trajetória principal.

O cloning comportamental em demonstrações roteirizadas dos organizadores falhou porque trajetórias de especialistas eram inflexíveis — pequenos desvios de tecido não produziram sinal de recuperação. O loop de RL aborda essa fragilidade. A generalização para roupas não vistas exigiu aleatorização de domínio de simulação pesada sem garantia de cobertura. O gap de 30 pontos para o vencedor na rodada do mundo real sugere que a aleatorização foi imperfeita.

Para arquitetos construindo sistemas bimanuals, os aprendizados acionáveis são específicos: condicionamento de vantagem AWR + RECAP compõe em qualquer política com flow-matching sem um crítico; HuggingFace Hub como estado de rollout compartilhado elimina infraestrutura distribuída de RL; Thompson sampling na inferência é uma forma de baixo overhead para recuperar sensibilidade de hiperparâmetro. O artigo explicitamente nota que nenhum componente foi ablacionado isoladamente — este é um log de deployment, não uma prova.

Sources

System placed 1st of 62 teams in the online simulation round and 2nd in the real-world final of LeHome Challenge 2026
"The system placed 1st of 62 teams in the online (simulation) round and 2nd in the real-world final."
arxiv.org ↗
Bimanual SO-ARM101 setup: two 6-DOF arms, 12-dimensional joint action space, 30 Hz in sim / 20 Hz real
"two 6-DOF arms, a 12-dimensional joint action space at 30 Hz in sim (20 Hz in the real round), and three RGB cameras (one overhead, one on each wrist)"
arxiv.org ↗
AWR + RECAP combined for flow-matching VLA; advantage conditioning enables classifier-free guidance at inference
"AWR + RECAP combined for flow-matching VLA; an asynchronous distributed training / rollout pipeline through HuggingFace Hub; inference-time hyperparameters optimization via Thompson sampling"
arxiv.org ↗
Policy is its own value function: same network predicts actions, success, progress, and task-relevant future quantities
"The policy is its own value function: the same network that predicts actions also predicts success, progress, and a few task-relevant future quantities, and those predictions drive advantage estimation, live failure detection, and candidate selection."
arxiv.org ↗
Training ran on a single H200; rollouts collected on RTX PRO 6000 GPU; components communicate via HuggingFace Hub checkpoints
"Training ran on a single H200; rollouts were collected mostly on RTX PRO 6000 GPU."
arxiv.org ↗
Sim-to-real transfer was blind — author never had access to the evaluation robot; chain was sim → own robot → their robot
"No access to the evaluation robot. For the real round I never had the actual evaluation rig, so transfer was really sim → my robot → their robot, with an extra generalization step baked in."
arxiv.org ↗
Real-world final leaderboard: sZs 895 pts (1st), ilya 865 pts (2nd), Dum-E 762.5 pts (3rd)
"1 sZs 895 / 2 ilya 865 / 3 Dum-E 762.5"
lehome-challenge.com ↗
Competition ran on NVIDIA Isaac Lab; top 8 simulation teams invited to real-world final at ICRA 2026 in Vienna
"The top eight ranked participants in this phase will be invited to compete in the Real-World Challenge, which will be held on-site at ICRA from June 1 to June 5, 2026."
lehome-challenge.com ↗
LeHome challenge is the world's first robotics competition dedicated to diverse garment manipulation in home scenarios
"Garment manipulation is a fundamental yet highly challenging problem in the robotic manipulation area, involving complex, deformable objects and contact-rich interactions."
lehome-challenge.com ↗
Four garment types evaluated: long-sleeved tops, short-sleeved tops, long pants, shorts; online round scored over 20 instances per type
"Four garment types are evaluated: long-sleeved tops, short-sleeved tops, long pants, and shorts... Each garment type is scored over 20 instances: 10 seen garments... and 10 unseen."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Pesquisador Solitário Fica em 2º Lugar no Desafio de Robô Dobrando Roupas da ICRA

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.