Métricas do SAEBench Classificam SAEs de Forma Invertida, Auditoria Constata

Uma auditoria metodológica do SAEBench, o padrão de facto para avaliações de autocodificadores esparsos, constata que duas de suas métricas de qualidade são pouco confiáveis: Targeted Probe Performance apresenta ruído de ressemeadura e baixa correlação com a verdade de base, enquanto Logit Product Accuracy falha em discriminar ao longo das trajetórias de treinamento. Ângulo do arquiteto: se suas avaliações de interpretabilidade mecanicista dependem de scores do SAEBench, sua classificação das arquiteturas de SAE pode estar invertida—a cadeia de auditoria do trabalho está no dump do arxiv.

Duas métricas centrais do SAEBench—Targeted Probe Perturbation (TPP) e Spurious Correlation Removal (SCR)—produzem classificações de qualidade invertidas, conforme constatado em uma auditoria metodológica publicada no arXiv em 18 de maio de 2026 por David Chanin da Decode Research, MATS e UCL.

Scores do TPP classificam SAEs como piores quanto mais tempo eles treinam, contradizendo o sinal que os praticantes precisam. SCR passa a ser negativamente correlacionada com qualidade de verdade de base em configurações grandes de top-N. Ambas falham em múltiplos dos cinco desideratos do trabalho em suas configurações canônicas, em todas as lentes de avaliação que equipes realmente usam. Nenhuma métrica deve ser usada para avaliação de SAE.

Chanin testou métricas em três lentes complementares: ruído de ressemeadura (cinco execuções por métrica em SAEs fixos), validade em SAEs sintéticos com qualidade de verdade de base computável, e discriminabilidade ao longo de trajetórias de treinamento. Ele treinou dois painéis de SAE—um com diferenças deliberadamente grandes (BatchTopK vs Matryoshka, k∈{50,100}) e outro com variantes de arquitetura única mais próximas. O painel de cross-arquitetura testa se uma métrica distingue SAEs muito diferentes; o painel de arquitetura única pergunta se ela consegue distinguir pequenas variantes que equipes de engenharia realmente comparam.

O coeficiente de variação por métrica variou em quase duas ordens de magnitude, revelando um limiar de diferença mínima confiável que o campo ainda não havia quantificado. Toda métrica além de TPP e SCR é mais barulhenta e menos discriminativa do que se pressupunha, mesmo quando diferenças de SAE são grandes. A métrica mais confiável testada é a variante sae-probes da sondagem k-sparse. Porém, sae-probes não consegue separar com confiabilidade variantes de arquitetura única—a comparação que mais importa quando equipes escolhem entre, digamos, duas configurações Matryoshka. Interpretação automatizada e RAVEL não foram testáveis sob a lente de SAE sintético porque ambas exigem conceitos em linguagem natural que o dicionário sintético não possui.

Para equipes que embarcam em ferramentaria baseada em SAE, a implicação é direta: classificações de leaderboard construídas em scores de TPP ou SCR estão invertidas. Se a seleção de arquitetura ou lógica de poda de execução de treinamento depende de qualquer métrica, você está otimizando ruído mascarado de sinal. O trabalho ainda não oferece uma métrica de reposição que satisfaça cada desiderato. Sae-probes é a opção atual mais viável, mas é incompleta. A auditoria é um estudo de benchmarking, não um estudo de implementação com implicações de latência ou custo.

Equipes devem auditar pipelines de avaliação de SAE contra os cinco desideratos neste trabalho antes de publicar resultados ou agir em comparações de arquitetura. Qualquer classificação construída em TPP ou SCR deve ser tratada como ruído até ser reavaliada com sae-probes ou uma métrica futura que sobreviva a todas as três lentes de auditoria.

Sources

TPP and SCR fail multiple desiderata at their canonical settings and should not be used to evaluate SAEs
"We find that two of these metrics, Targeted Probe Perturbation (TPP) and Spurious Correlation Removal (SCR), fail multiple lenses at their canonical settings and should not be used to evaluate SAEs."
arxiv.org ↗
TPP scores an SAE worse the more it is trained; SCR becomes negatively correlated with ground-truth at large top-N
"TPP scores worse the more an SAE is trained, and SCR becomes negatively correlated with ground-truth at large top-N."
arxiv.org ↗
Reseed noise audit run five times with different random seeds on a fixed canonical Gemma Scope SAE, replicated on three other canonical SAEs
"We run each SAEBench evaluation five times with different random seeds on a fixed canonical Gemma Scope SAE (replicated on three other canonical SAEs across model families in Appendix C)."
arxiv.org ↗
Per-metric coefficient of variation spans nearly two orders of magnitude
"the resulting per-metric CV spans nearly two orders of magnitude and yields a minimum-reliable-difference threshold for single-seed comparisons."
arxiv.org ↗
SynthSAEBench-16k is a synthetic model whose activations are sparse linear combinations of a known 16,000-feature dictionary
"Using SynthSAEBench-16k, a synthetic model whose activations are sparse linear combinations of a known 16k-feature dictionary, we train a panel of SAEs with computable ground-truth quality."
arxiv.org ↗
Cross-architecture discriminability panel compared BatchTopK vs Matryoshka, k∈{50,100}
"a four-SAE cross-architecture panel with deliberately large differences (BatchTopK vs Matryoshka, k∈{50,100})"
arxiv.org ↗
sae-probes is the most reliable metric tested but struggles to separate variants of the same SAE architecture
"The sae-probes variant of k-sparse probing is the most reliable metric we tested, but even sae-probes struggles to separate variants of the same SAE architecture."
arxiv.org ↗
Every other metric is noisier and less discriminative than the field assumes
"The other metrics show higher reseed noise and lower discriminability than the field assumes."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Métricas do SAEBench Classificam SAEs de Forma Invertida, Auditoria Constata

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.