Cada Clasificador de Guardrail Probado Falla en Verificación Formal de Seguridad

Los investigadores Nikita Kezins, Urbas Ekka, Pascal Berrang y Luca Arnaboldi probaron formalmente que cada clasificador de guardrail que probaron contiene brechas de seguridad verificables. Los hallazgos, publicados el 11 de mayo en arXiv, exponen una debilidad estructural en cómo las empresas auditan salvaguardas de LLM en producción.

El trabajo aborda la brecha entre red-teaming empírico y certificación formal de seguridad. Los clasificadores de guardrail actuales—filtros que se sitúan entre las entradas del usuario y las respuestas del modelo para bloquear contenido dañino—muestran números de benchmark sólidos pero no tienen garantías comprobables. La causa raíz: un desajuste entre marcos de verificación tomados prestados de otros dominios de ML y la naturaleza del lenguaje. Las propiedades estándar de epsilon-ball en espacio de tokens discreto no tienen significado semántico. "La vecindad de una entrada dañina" es matemáticamente indefinida.

La solución del equipo traslada la verificación fuera del espacio de tokens enteramente. En su lugar, verifican en el espacio pre-activación del clasificador—la capa de embedding interna donde entradas semánticamente similares se agrupan. Una "región dañina" se convierte en una forma convexa (ya sea un hiper-rectángulo o un componente de mezcla gaussiana) que encierra las representaciones de entradas dañinas conocidas. Dado que el head sigmoid final es monótono, certificar el punto del peor caso en esa región convexa certifica cada punto dentro de ella. Esto produce una prueba de solidez de forma cerrada que se ejecuta en tiempo O(d), donde d es la dimensión del embedding. Ninguna aproximación requerida para el caso de hiper-rectángulo.

Se instanciaron dos tipos de certificado. Los hiper-rectángulos alineados con SVD producen respuestas SAT/UNSAT exactas: el clasificador está garantizado de bloquear toda la región dañina o no está garantizado. Los Modelos de Mezcla Gaussiana (GMM) producen certificados probabilísticos sobre clusters semánticamente coherentes, capturando los límites fluidos del lenguaje dañino del mundo real. Ambos se aplicaron a tres clasificadores de guardrail entrenados por los autores y comparados en una tarea de detección de toxicidad.

Los resultados son contundentes. Cada configuración de hiper-rectángulo devolvió SAT—lo que significa que cada clasificador tiene al menos una región comprobadamente insegura que no bloquea, independientemente del rendimiento del benchmark. Los certificados probabilísticos GMM revelaron divergencia arquitectónica. Las salvaguardas basadas en GPT-2 mantuvieron 90% de cobertura de región dañina en variaciones de umbral; Llama-3.1-8B mantuvo 80%. BERT colapsó. En el umbral de clasificación óptimo, la cobertura de BERT cayó al 55%—un fenómeno que los autores llaman "colapso de cobertura". BERT alcanza cobertura completa solo adoptando un umbral extremadamente conservador que deterioraría la precisión en producción.

Para equipos empresariales, las implicaciones de cumplimiento son directas. Las evaluaciones de red-team, pruebas de penetración y suites de benchmark miden tasas de falla empíricas; no pueden descartar modos de falla fuera de su distribución de prueba. Los certificados formales pueden. Los reguladores en el marco de la EU AI Act y NIST AI RMF señalan movimiento hacia propiedades de seguridad auditables para implementaciones de alto riesgo—documentación que el red-teaming solo no puede satisfacer. Este marco proporciona a los equipos de cumplimiento y gobernanza un artefacto concreto: un certificado que establece si un clasificador dado es verificablemente seguro sobre una región de embedding dañina definida, no solo sobre un conjunto de prueba finito.

Permanecen preguntas abiertas. El marco actualmente cubre clasificadores con un head sigmoid; extenderlo a arquitecturas multi-label o softmax no está abordado. Las regiones dañinas están delimitadas por las representaciones de entradas conocidas, por lo que los nuevos jailbreaks fuera del casco convexo no están certificados. Los tres clasificadores se entrenan específicamente para este estudio en lugar de extraerse de salvaguardas comerciales implementadas como Llama Guard o la API de moderación de OpenAI, dejando la transferibilidad de los hallazgos incierta.

El campo ahora tiene una alternativa matemáticamente fundamentada al red-teaming empírico. Las empresas que evalúan proveedores de guardrail deben preguntar si los artefactos de verificación formal están en el roadmap del producto.

Sources

Every hyper-rectangle configuration returns SAT, exposing verifiable safety holes across all classifiers tested
"every hyper-rectangle configuration returns SAT, exposing verifiable safety holes across all classifiers, despite seemingly high empirical metrics"
arxiv.org ↗
Verification is shifted from the discrete input space to the classifier's pre-activation space, yielding a closed-form soundness proof in O(d) time
"certifying the worst-case point is sufficient to certify the entire region, yielding a closed-form soundness proof without approximation in O(d) time"
arxiv.org ↗
Two certificate constructions are proposed: SVD-aligned hyper-rectangles for exact SAT/UNSAT results, and Gaussian Mixture Models for probabilistic certificates
"SVD-aligned hyper-rectangles, which yield exact SAT/UNSAT certificates, and Gaussian Mixture Models, which yield probabilistic certificates over semantically coherent clusters"
arxiv.org ↗
GPT-2-based guardrails maintain 90% coverage and Llama-3.1-8B maintains 80% coverage across varying thresholds
"GPT-2 and Llama-3.1-8B maintain robust coverage of 90% and 80% across varying boundaries"
arxiv.org ↗
BERT's coverage collapses to 55% at the optimal threshold, a phenomenon the paper calls 'coverage collapse'
"This 'coverage collapse' to 55% at the optimal threshold reveals a sparsely populated safety margin in BERT, which only achieves full coverage by adopting an extremely conservative pessimistic threshold"
arxiv.org ↗
Standard epsilon-ball properties used in other ML domains do not carry semantic meaning in the discrete input space of language
"the standard epsilon-ball properties used in other domains do not carry semantic meaning"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Cada Clasificador de Guardrail Probado Falla en Verificación Formal de Seguridad

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.