Investigador Solitario Queda en 2º Lugar en el Desafío de Robot Doblador de Ropa de ICRA

Un investigador independiente solitario, Ilia Larchenko, terminó en 1º lugar entre 62 equipos en la fase de simulación del Desafío LeHome 2026 — la primera competencia estandarizada de ICRA para manipulación de objetos deformables — y luego quedó en 2º lugar en la final del mundo real en Viena con una puntuación de 865 contra los 895 del ganador. El paper de arXiv se enmarca a sí mismo como un paper de receta, no una afirmación de investigación: técnicas conocidas de RL recombinadas bajo presión de competencia, aplicadas a un VLA con flow-matching.

La tarea requería doblado de ropa bimanual en un setup SO-ARM101: dos brazos 6-DOF, espacio de acción conjunta 12-dimensional, tres cámaras RGB, funcionando a 30 Hz en simulación y 20 Hz en el robot físico. Cuatro tipos de prendas — camisetas de manga larga, camisetas de manga corta, pantalones largos, shorts — con éxito binario definido por condiciones de distancia de keypoint: 5 para camisetas, 4 para pantalones. La política no recibió etiqueta de categoría de prenda en la inferencia y tuvo que inferir el tipo únicamente desde la visión.

El loop de RL combina AWR (Regresión Ponderada por Ventaja) y acondicionamiento de ventaja estilo RECAP en un VLA con flow-matching. AWR prioriza frames de alta ventaja durante el entrenamiento. RECAP acondiciona la ventaja como entrada de red, habilitando guía libre de clasificador en la inferencia — la "agresividad" de la política se puede ajustar sin reentrenamiento. Larchenko argumenta que este enfoque se adapta mejor a VLAs con flow-matching que a PPO on-policy, que corre el riesgo de inestabilidad con la estructura de trayectoria no-Markoviana común en manipulación.

La política funciona también como su propia función de valor, eliminando un crítico separado. La misma red emite acciones, probabilidad de éxito, progreso de tarea y cantidades futuras relevantes para la tarea. Estas salidas auxiliares impulsan estimación de ventaja, detección de fallo en vivo y selección de candidatos en la inferencia. El entrenamiento se ejecutó en una única H200 con rollouts recopilados en paralelo en GPUs RTX PRO 6000. El worker de entrenamiento, workers de rollout y estación DAgger se comunican únicamente a través de checkpoints de HuggingFace Hub.

La optimización de hiperparámetros en tiempo de inferencia utiliza Thompson sampling. En lugar de fijar la fuerza de guía y el conteo de candidatos en tiempo de entrenamiento, el sistema busca sobre ellos durante la evaluación, tratando cada intento como un brazo bandit. Para configuraciones de competencia con un número fijo de intentos, esto recupera sensibilidad de hiperparámetros sin gastar intentos en exploración aleatoria.

La transferencia sim-a-real fue ciega: Larchenko no tuvo acceso al equipo físico de los organizadores. La cadena de transferencia corrió sim → robot propio → su robot. La herramienta de alineación de cámara ancoró el viewpoint de simulación a la cámara overhead real. Aleatorización de dominio pesada cubrió iluminación y textura de prenda. Un loop humano-en-el-bucle estilo DAgger parcheó cambios de distribución. Para inferencia de tipo de prenda, un token de entrada aprendido se bootstrap en la inferencia usando un clasificador ligero que ejecuta un rollout corto antes de comprometerse con la trayectoria principal.

El clonado de comportamiento en demostraciones con guion de los organizadores fracasó porque las trayectorias de expertos eran inflexibles — pequeñas desviaciones de tela no produjeron señal de recuperación. El loop de RL aborda esa fragilidad. La generalización a prendas no vistas requirió aleatorización de dominio de simulación pesada sin garantía de cobertura. La brecha de 30 puntos con respecto al ganador en la ronda del mundo real sugiere que la aleatorización fue imperfecta.

Para arquitectos que construyen sistemas bimanual, los aprendizajes accionables son específicos: acondicionamiento de ventaja AWR + RECAP se compone en cualquier política con flow-matching sin un crítico; HuggingFace Hub como estado de rollout compartido elimina infraestructura distribuida de RL; Thompson sampling en la inferencia es una forma de bajo overhead para recuperar sensibilidad de hiperparámetros. El paper explícitamente nota que ningún componente fue ablacionado de forma aislada — este es un registro de despliegue, no una prueba.

Sources

System placed 1st of 62 teams in the online simulation round and 2nd in the real-world final of LeHome Challenge 2026
"The system placed 1st of 62 teams in the online (simulation) round and 2nd in the real-world final."
arxiv.org ↗
Bimanual SO-ARM101 setup: two 6-DOF arms, 12-dimensional joint action space, 30 Hz in sim / 20 Hz real
"two 6-DOF arms, a 12-dimensional joint action space at 30 Hz in sim (20 Hz in the real round), and three RGB cameras (one overhead, one on each wrist)"
arxiv.org ↗
AWR + RECAP combined for flow-matching VLA; advantage conditioning enables classifier-free guidance at inference
"AWR + RECAP combined for flow-matching VLA; an asynchronous distributed training / rollout pipeline through HuggingFace Hub; inference-time hyperparameters optimization via Thompson sampling"
arxiv.org ↗
Policy is its own value function: same network predicts actions, success, progress, and task-relevant future quantities
"The policy is its own value function: the same network that predicts actions also predicts success, progress, and a few task-relevant future quantities, and those predictions drive advantage estimation, live failure detection, and candidate selection."
arxiv.org ↗
Training ran on a single H200; rollouts collected on RTX PRO 6000 GPU; components communicate via HuggingFace Hub checkpoints
"Training ran on a single H200; rollouts were collected mostly on RTX PRO 6000 GPU."
arxiv.org ↗
Sim-to-real transfer was blind — author never had access to the evaluation robot; chain was sim → own robot → their robot
"No access to the evaluation robot. For the real round I never had the actual evaluation rig, so transfer was really sim → my robot → their robot, with an extra generalization step baked in."
arxiv.org ↗
Real-world final leaderboard: sZs 895 pts (1st), ilya 865 pts (2nd), Dum-E 762.5 pts (3rd)
"1 sZs 895 / 2 ilya 865 / 3 Dum-E 762.5"
lehome-challenge.com ↗
Competition ran on NVIDIA Isaac Lab; top 8 simulation teams invited to real-world final at ICRA 2026 in Vienna
"The top eight ranked participants in this phase will be invited to compete in the Real-World Challenge, which will be held on-site at ICRA from June 1 to June 5, 2026."
lehome-challenge.com ↗
LeHome challenge is the world's first robotics competition dedicated to diverse garment manipulation in home scenarios
"Garment manipulation is a fundamental yet highly challenging problem in the robotic manipulation area, involving complex, deformable objects and contact-rich interactions."
lehome-challenge.com ↗
Four garment types evaluated: long-sleeved tops, short-sleeved tops, long pants, shorts; online round scored over 20 instances per type
"Four garment types are evaluated: long-sleeved tops, short-sleeved tops, long pants, and shorts... Each garment type is scored over 20 instances: 10 seen garments... and 10 unseen."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Investigador Solitario Queda en 2º Lugar en el Desafío de Robot Doblador de Ropa de ICRA

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.