Métricas de SAEBench Clasifican SAEs al Revés, Encuentra Auditoría

Una auditoría metodológica de SAEBench, el estándar de facto para evaluaciones de autocodificadores sparse, encuentra que dos de sus métricas de calidad son poco confiables: Targeted Probe Performance muestra ruido de resemilla y baja correlación con la verdad base, mientras que Logit Product Accuracy no logra discriminar entre trayectorias de entrenamiento. Ángulo del arquitecto: si tus evaluaciones de interpretabilidad mecanicista se basan en puntajes de SAEBench, tu clasificación de arquitecturas SAE podría estar invertida—la cadena de auditoría del artículo está en el dump de arxiv.

Dos métricas centrales de SAEBench—Targeted Probe Perturbation (TPP) y Spurious Correlation Removal (SCR)—producen clasificaciones de calidad invertidas, según una auditoría metodológica publicada en arXiv el 18 de mayo de 2026 por David Chanin de Decode Research, MATS y UCL.

Los puntajes de TPP clasifican SAEs como peores cuanto más tiempo entrenan, contradiciendo la señal que los practicantes necesitan. SCR se vuelve negativamente correlacionada con calidad de verdad base en configuraciones grandes de top-N. Ambas fallan en múltiples de los cinco desideratos del artículo en sus configuraciones canónicas, en todos los lentes de evaluación que los equipos realmente usan. Ninguna métrica debe usarse para evaluación de SAE.

Chanin probó métricas en tres lentes complementarios: ruido de resemilla (cinco ejecuciones por métrica en SAEs fijos), validez en SAEs sintéticos con calidad de verdad base computable, y discriminabilidad entre trayectorias de entrenamiento. Entrenó dos paneles de SAE—uno con diferencias deliberadamente grandes (BatchTopK vs Matryoshka, k∈{50,100}) y otro con variantes de arquitectura única más ajustadas. El panel de cross-arquitectura prueba si una métrica distingue SAEs muy diferentes; el panel de arquitectura única pregunta si puede distinguir variantes pequeñas que los equipos de ingeniería realmente comparan.

El coeficiente de variación por métrica abarcó casi dos órdenes de magnitud, revelando un umbral de diferencia mínima confiable que el campo aún no había cuantificado. Cada métrica aparte de TPP y SCR es más ruidosa y menos discriminativa de lo supuesto, incluso cuando las diferencias de SAE son grandes. La métrica más confiable probada es la variante sae-probes del sondeo k-sparse. Sin embargo, sae-probes no puede separar de forma confiable variantes de arquitectura única—la comparación que más importa cuando los equipos eligen entre, digamos, dos configuraciones Matryoshka. Interpretación automatizada y RAVEL no fueron comprobables bajo el lente de SAE sintético porque ambas requieren conceptos en lenguaje natural que el diccionario sintético carece.

Para equipos que implementan herramientas basadas en SAE, la implicación es directa: las clasificaciones de leaderboard construidas con puntajes de TPP o SCR están invertidas. Si la selección de arquitectura o la lógica de poda de ejecuciones de entrenamiento depende de cualquier métrica, estás optimizando ruido disfrazado de señal. El artículo aún no ofrece una métrica de reemplazo que cumpla todos los desideratos. Sae-probes es la mejor opción actual pero está incompleta. La auditoría es un estudio de benchmarking, no un estudio de despliegue con implicaciones de latencia o costo.

Los equipos deben auditar pipelines de evaluación de SAE contra los cinco desideratos en este artículo antes de publicar resultados o actuar sobre comparaciones de arquitectura. Cualquier clasificación construida en TPP o SCR debe tratarse como ruido hasta ser reevaluada con sae-probes o una métrica futura que sobreviva a los tres lentes de auditoría.

Sources

TPP and SCR fail multiple desiderata at their canonical settings and should not be used to evaluate SAEs
"We find that two of these metrics, Targeted Probe Perturbation (TPP) and Spurious Correlation Removal (SCR), fail multiple lenses at their canonical settings and should not be used to evaluate SAEs."
arxiv.org ↗
TPP scores an SAE worse the more it is trained; SCR becomes negatively correlated with ground-truth at large top-N
"TPP scores worse the more an SAE is trained, and SCR becomes negatively correlated with ground-truth at large top-N."
arxiv.org ↗
Reseed noise audit run five times with different random seeds on a fixed canonical Gemma Scope SAE, replicated on three other canonical SAEs
"We run each SAEBench evaluation five times with different random seeds on a fixed canonical Gemma Scope SAE (replicated on three other canonical SAEs across model families in Appendix C)."
arxiv.org ↗
Per-metric coefficient of variation spans nearly two orders of magnitude
"the resulting per-metric CV spans nearly two orders of magnitude and yields a minimum-reliable-difference threshold for single-seed comparisons."
arxiv.org ↗
SynthSAEBench-16k is a synthetic model whose activations are sparse linear combinations of a known 16,000-feature dictionary
"Using SynthSAEBench-16k, a synthetic model whose activations are sparse linear combinations of a known 16k-feature dictionary, we train a panel of SAEs with computable ground-truth quality."
arxiv.org ↗
Cross-architecture discriminability panel compared BatchTopK vs Matryoshka, k∈{50,100}
"a four-SAE cross-architecture panel with deliberately large differences (BatchTopK vs Matryoshka, k∈{50,100})"
arxiv.org ↗
sae-probes is the most reliable metric tested but struggles to separate variants of the same SAE architecture
"The sae-probes variant of k-sparse probing is the most reliable metric we tested, but even sae-probes struggles to separate variants of the same SAE architecture."
arxiv.org ↗
Every other metric is noisier and less discriminative than the field assumes
"The other metrics show higher reseed noise and lower discriminability than the field assumes."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Métricas de SAEBench Clasifican SAEs al Revés, Encuentra Auditoría

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.