Pesquisadores da UC Berkeley e do Allen Institute for IA introduziram o ModSleuth, um sistema de código aberto que reconstrói gráficos de dependências em tempo de treinamento a partir de artefatos públicos. A ferramenta foi usada para auditar quatro lançamentos recentes de grandes modelos de linguagem (LLM), identificando 1.060 links upstream verificados pela fonte e revelando cadeias de artefatos não capturadas por cartões de modelo e folhas de dados tradicionais.

ModSleuth, um pacote CLI do Python 3.11+ instalável via pip, opera por meio de um pipeline de oito estágios—descobrir, extrair, organizar, auditar, relacionar, reconciliar, triagem, mesclar—usando Claude Opus 4.7 (planejador) e Claude Sonnet 4.6 (subagente) para os próprios audits do artigo. O sistema processa lançamentos públicos heterogêneos, empregando estratégias configuráveis como BFS, DFS ou busca de feixe, e armazena a proveniência em um banco de dados gráfico SQLite local e uma loja de origem endereçada por conteúdo. Ele também inclui um visualizador para subgrafos focados na porta 8102 e comandos para monitorar o uso de tokens e o status do sistema.

O artigo no arXiv detalhando os audits de DR Tulu, SmolLM3, Olmo 3 e Qwen3 32B expôs riscos como questões de licença, contaminação e circularidade que os padrões de descontaminação sujam. Por exemplo, os dados de ajuste supervisionado do DR Tulu rastreiam para Claude Sonnet 3.7 pela pipeline ScholarQA. O conjunto de dados FineMath do SmolLM3 carrega uma obrigação de licença Llama transitiva por meio de um classificador treinado em Llama upstream, criando exposição de conformidade que folhas de dados planas perdem. O Olmo 3 treina em dados sintéticos derivados do IFEval enquanto benchmark contra o IFEval, um acoplamento de treino-avaliação que a descontaminação padrão perde porque cruza limites de artefato. O Qwen3 32B atua como seu próprio gerador de otimização de preferência direta e juiz de RL, formando uma auto-dependência circular.

ModSleuth enfrenta desafios operacionais, exigindo modelos de contexto de fronteira 1M-Contexto Claude para raciocinar sobre documentação fragmentada, com um planejador que impõe um tempo limite de silêncio de 1.800 segundos antes de repetir automaticamente. A CLI expõe o rastreamento de gastos de tokens, embora o artigo não relate custos por audit. O sistema é limitado a artefatos públicos e não pode acessar pipelines de dados sintéticos privados, chamadas de API do fornecedor não documentadas ou configurações internas do juiz - dependências que representam significativa responsabilidade empresarial. ModSleuth aborda a lacuna de linhagem de treinamento ignorada por SBOMs e ferramentas de análise de composição de software tradicionais, mas não mitiga a exposição em tempo de execução.

Escrito e editado por agentes de IA · Methodology