Framework Baseado em SHAP Quantifica o Impacto da Configuração de RL em Robótica

Pesquisadores do Fraunhofer Institute for Applied Information Technology FIT e da University of Cologne publicaram o primeiro framework usando SHAP (SHapley Additive exPlanations) para quantificar como as escolhas de algoritmo e hiperparâmetros impulsionam os gaps de generalização em reinforcement learning. O trabalho aborda diretamente as falhas de transferência Sim2Real que descarrilham implementações de robótica em produção.

O desempenho do modelo de RL depende fortemente das escolhas de configuração, mas equipes carecem de um método fundamentado para determinar quais configurações impulsionam a variância entre ambientes. Pesquisa anterior identificou o gap; este framework mensura a contribuição de cada configuração. A equipe treinou grandes números de modelos de RL com configurações amostradas sistematicamente, os avaliou em ambiente de treinamento e teste mantido isolado, depois aplicou SHAP para extrair padrões de contribuição — tratando parâmetros de configuração como "features" cujos efeitos marginais podem ser ranqueados e agregados.

A configuração experimental usa quatro pares de tarefas padronizadas de locomoção robótica do Gymnasium, executadas bidirecionalmente entre simuladores de física MuJoCo e PyBullet. O desajuste de engine de física entre os dois serve como um proxy controlado e reproduzível para o gap Sim2Real sem necessidade de hardware físico. As políticas de RL são arquiteturas de Multi-Layer Perceptron na faixa de milhões de parâmetros — deliberadamente lightweight comparadas a modelos de escala LLM, tornando-os rápidos para treinar em bulk mas notoriamente frágeis através de mudanças de ambiente. O codebase está disponível publicamente em https://github.com/engineerkong/SHAP-RLROBO.

Para equipes de IA empresarial e robótica, o valor prático é um workflow sistemático de seleção de configuração em vez de outro algoritmo. Equipes construindo agentes de RL implementados em automação de armazém, robótica cirúrgica ou inspeção autônoma tipicamente queimam compute significativo em sweeps de hiperparâmetro manual sem base teórica para priorização. A seleção guiada por SHAP substitui esse ciclo de tentativa-e-erro por orientação ranqueada e específica à tarefa derivada de experimentos anteriores. O framework é projetado para ser modular e reproduzível, adaptável a ambientes proprietários e conjuntos de tarefas customizados sem reconstrução do zero.

A pesquisa revela padrões de interação entre configurações que análises de variável única perdem. Taxa de aprendizado é o hiperparâmetro canônico que equipes ajustam, mas a decomposição SHAP do paper revela como a escolha de algoritmo e múltiplos hiperparâmetros interagem para produzir o gap de generalização. A análise entre tarefas do framework mostra que certos impactos de configuração são consistentes através de tarefas diversas, o que importa para equipes gerenciando múltiplas plataformas robóticas sob infraestrutura de treinamento compartilhada.

Caveatos são substanciais. O escopo do benchmark — quatro pares de tarefas, dois simuladores — valida a metodologia mas é estreito relativo à heterogeneidade da robótica em produção. Resultados de hardware físico não estão inclusos; a transferência MuJoCo-para-PyBullet é um proxy Sim2Sim razoável mas não substituto para validação Sim2Real em escala. Figuras específicas de melhoria de desempenho quantitativo da seção de resultados não foram acessíveis para verificação independente na publicação. A abordagem também requer que equipes executem experimentos de configuração suficientes para construir um corpus de treinamento SHAP significativo — um requerimento de compute não-trivial para organizações sem infraestrutura de RL dedicada.

Os autores afirmam que este é o primeiro framework baseado em SHAP aplicado à generalização de RL em robótica. O lançamento open-source reduz barreiras de adoção. Para equipes já executando RL em simulação e atingindo paredes de transferência, o framework oferece uma camada de diagnóstico que é consideravelmente mais barata que redesenhar o ambiente de treinamento ou trocar algoritmos.

Sources

First framework to use SHAP to quantitatively decompose how algorithm and hyperparameter choices drive RL generalization gaps across robotic environments
"To the best of our knowledge, this is the first work to leverage SHAP for explaining and guiding RL configuration patterns to improve generalization across robotic environments"
arxiv.org ↗
Experiment uses four pairs of standardized robotic tasks from Gymnasium across MuJoCo and PyBullet physics engines bidirectionally
"we implement our framework on four pairs of standardized robotic tasks from Gymnasium across MuJoCo and PyBullet physics engines bidirectionally, where the physics gap serves as a controlled proxy analogous to the Sim2Real gap"
arxiv.org ↗
RL models are Multi-Layer Perceptron policies at the million-parameter scale, significantly smaller than modern LLMs
"RL models are typically built on lightweight policies (e.g., Multi-Layer Perceptron policies at the million-parameter scale), making them significantly smaller than modern Large Language Models (LLMs)"
arxiv.org ↗
MuJoCo-to-PyBullet transfer used as a controlled proxy for the Sim2Real gap
"the physics gap serves as a controlled proxy analogous to the Sim2Real gap"
arxiv.org ↗
Framework code is publicly available at https://github.com/engineerkong/SHAP-RLROBO
"The code for our framework and experiments is available at https://github.com/engineerkong/SHAP-RLROBO"
arxiv.org ↗
RL model performance is highly sensitive to algorithm and hyperparameter configurations, and generalization gaps across environments complicate real-world deployment
"model performance remains highly sensitive to algorithm and hyperparameter configurations, while generalization gaps across environments complicate real-world deployment"
arxiv.org ↗
The relative contribution of specific configurations to the generalization gap had not previously been quantitatively decomposed
"the relative contribution of specific configurations to the generalization gap has not been quantitatively decomposed and systematically leveraged for configuration selection"
arxiv.org ↗
Research is from Fraunhofer Institute for Applied Information Technology FIT and University of Cologne
"Fraunhofer Institute for Applied Information Technology FIT, Germany ... University of Cologne, Germany"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Framework Baseado em SHAP Quantifica o Impacto da Configuração de RL em Robótica

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.