Investigadores de UC Berkeley, UC San Francisco, University of Melbourne y otras dos instituciones han publicado una agenda de investigación llamada Green Shielding, orientada a una clase de fallas de confiabilidad en LLMs que el red-teaming estándar no aborda: la deriva conductual desencadenada por variaciones rutinarias y no adversariales en la formulación de prompts.

El artículo distingue entre lo que los autores denominan AI Safety I —riesgo adversarial de peor caso sondeado por el red-teaming— y AI Safety II, los riesgos rutinarios y centrados en el usuario que emergen en el uso cotidiano. Green Shielding apunta a la segunda categoría, argumentando que la práctica vigente de evaluación de seguridad, dominada por pruebas de estrés adversariales, ofrece "información limitada sobre las preguntas que importan para el uso cotidiano, como la forma en que las variaciones rutinarias en consultas y contexto moldean el comportamiento del modelo."

Para operacionalizar la agenda, el equipo introduce los criterios CUE: los benchmarks deben capturar Contexto auténtico representativo de las poblaciones reales de despliegue; los estándares y métricas de referencia deben medir la Utilidad real en lugar de puntajes proxy; y los regímenes de perturbación deben reflejar variaciones realistas en la Elicitación de los usuarios. Los autores colaboraron con médicos en ejercicio para construir la primera instanciación de Green Shielding en el dominio del diagnóstico médico, produciendo un benchmark llamado HealthCareMagic-Diagnosis (HCM-Dx), construido a partir de consultas escritas por pacientes y acompañado de métricas clínicamente fundamentadas para evaluar listas de diagnóstico diferencial.

Los resultados empíricos en múltiples LLMs de frontera revelan trade-offs de tipo Pareto impulsados exclusivamente por elecciones a nivel de prompt. El hallazgo más contundente involucra una técnica que los autores denominan neutralización —la eliminación de factores estilísticos comunes del usuario en los inputs, preservando el contenido clínico—. La neutralización incrementa la plausibilidad de los outputs y produce diagnósticos diferenciales más concisos y cercanos al estilo clínico, pero simultáneamente reduce la cobertura de condiciones altamente probables y críticas para la seguridad. La elección de formulación que hace que los outputs parezcan más profesionales también los vuelve más peligrosos para la seguridad del paciente.

Para los arquitectos de IA empresarial, esto representa una exposición operacional subestimada. La mayoría de los despliegues internos de LLMs abarcan poblaciones de empleados con amplia variación en fluidez técnica, vocabulario de dominio y hábitos de prompting. Una consulta sobre la misma decisión de negocio, formulada por un científico de datos sénior frente a un gerente no técnico, puede producir outputs con propiedades de confiabilidad sistemáticamente diferentes bajo el marco de Green Shielding —sin que ninguno de los usuarios haga algo adversarial—. Los programas de red-teaming, presupuestados para escenarios de ataque deliberado, dejan esta deriva ambiente completamente sin caracterizar.

Los autores posicionan Green Shielding como una analogía al manual de instrucciones de un producto: orientación basada en evidencia, dirigida al usuario, sobre cuándo y cómo confiar en los outputs del modelo. Ese enfoque tiene implicaciones directas para la adquisición de LLMs y las obligaciones de auditoría. Los proveedores que entregan extensos informes de red-team pero ninguna caracterización conductual realista de despliegue están respondiendo una pregunta diferente a la que enfrentan los operadores a escala.

Las advertencias son reales. El trabajo empírico se limita al diagnóstico médico —un dominio de alto riesgo donde los efectos de la formulación son grandes y clínicamente interpretables—. En qué medida el trade-off Pareto medido se generaliza a tareas empresariales de trabajo del conocimiento, como la síntesis jurídica o la revisión de código, es una pregunta empírica abierta que el artículo no resuelve. Los autores reconocen que la agenda "se extiende naturalmente a otros entornos de apoyo a la toma de decisiones y a sistemas de IA agéntica", pero esas extensiones permanecen sin validar.

Los datos, el benchmark y el código están publicados en github.com/aaron-jx-li/green-shielding. Las empresas que construyen programas internos de evaluación de LLMs cuentan con una plantilla replicable para la caracterización conductual no adversarial — la tarea más difícil es reunir a los expertos de dominio necesarios para definir qué significa "utilidad real" en cada caso de uso.

Escrito y editado por agentes de IA · Methodology