OpenAI co-funda Appia Foundation hospedada por Linux Foundation para construir estándares de evaluación y gobernanza de IA
OpenAI anunció que co-fundó la Appia Foundation, hospedada por la Linux Foundation, para desarrollar especificaciones abiertas y modulares para evaluar, evaluar y gobernar sistemas de IA cada vez más capaces. Appia traducirá estándares internacionales y marcos establecidos en criterios de evaluación prácticos en toda la cadena de valor de IA, creando una capa de confianza a través de la cual terceros puedan verificar el cumplimiento de estándares. El esfuerzo tiene como objetivo desarrollar un lenguaje técnico compartido que permita a las instituciones nacionales e internacionales confiar en el trabajo de gobernanza de IA de otros.
OpenAI ya ha puesto principios de construcción de estándares en práctica a través de asociaciones de prueba con US CAISI y UK AISI, publicando un libro de juego compartido para evaluaciones confiables de terceros. Ese libro de juego establece estándares de divulgación para evaluaciones de capacidad frontier: el sistema probado, su acceso a herramientas, el sistema de evaluación, los métodos para dilucidar capacidades, los recursos disponibles y las comprobaciones de validación realizadas. Estas prácticas han llevado a mejoras concretas en los sistemas de OpenAI basadas en comentarios de evaluadores independientes.
El trabajo de Appia complementa el marco Preparedness más amplio de OpenAI, que define cómo la empresa operacionaliza la gestión de riesgos graves de sistemas de IA avanézada. El esfuerzo de Appia también se alinea con las recomendaciones de política de OpenAI para un marco duradero en EE.UU., un Center for AI Standards and Innovation (CAISI) fortalecido, y cooperación internacional en marcos de seguridad compatibles, canales confiables para compartir hallazgos de riesgos y respuestas coordinadas a incidentes.
Para arquitectos y formuladores de políticas, la Appia Foundation representa un intento de reducir la fragmentación en la gobernanza de IA creando criterios de evaluación reutilizables e interoperables y evidencia. Un lenguaje técnico compartido y prácticas de evaluación confiables pueden ayudar a las instituciones nacionales a evaluar sistemas frontier de forma independiente, y luego reconocer y coordinar sus hallazgos. Este enfoque de estandarización refleja cómo la seguridad aviática y los servicios financieros establecieron cadenas de evidencia confiables entre jurisdicciones.