Cómo las evaluaciones y referencias de seguridad de IA pueden ayudar en la gobernanza de la IA
¿Qué son las evaluaciones de seguridad de IA?
Las “evaluaciones” son pruebas que miden el comportamiento de los modelos de IA y cuán poderosos se están volviendo. En seguridad de IA, las evaluaciones suelen diseñarse para medir capacidades peligrosas, como capacidades de ciberseguridad, autorreplicación e investigación de IA autónoma.
Es importante destacar que las evaluaciones pueden determinar si una IA es demasiado peligrosa para implementar. Hay ciertas líneas rojas que ningún modelo de IA debería cruzar, por ejemplo, cuando puede…
- autorreplicarse. (Por ejemplo, RepliBench ). Una IA autorreplicante podría escapar de un laboratorio y propagarse a otras máquinas.
- crear modelos de IA más poderosos. Por ejemplo, RE-bench . Una IA que se mejora a sí misma podría volverse rápidamente más poderosa que los humanos.
Evitar la implementación no es suficiente
Las cosas pueden salir mal incluso antes de la implementación. La autorreplicación y la auto-mejora pueden ocurrir en un laboratorio de IA, antes de que el modelo esté disponible públicamente.
Por eso necesitamos un Botón de Pausa. Necesitamos detener globalmente el desarrollo de modelos de IA cada vez más poderosos, antes de que estas capacidades peligrosas maduren por completo. Este Botón de Pausa debería activarse cuando las evaluaciones muestran que estamos entrando en la zona de peligro.
¿Qué están haciendo las empresas de IA?
La mayoría de las empresas líderes en IA realizan evaluaciones de seguridad en sus modelos antes de implementarlos e incluyen los resultados en las llamadas “Fichas de Sistema”. La mayoría de ellas (excepto Meta y Apple) han firmado el Código de Práctica de IA de la UE , que menciona “evaluaciones de modelos de última generación” (Medida 3.2).
Esto también significa que algunas de estas empresas no realizan ninguna evaluación de seguridad, y las que se realizan no son obligatorias ni estandarizadas. En otras palabras, urgentemente necesitamos regulaciones que exijan evaluaciones de seguridad estandarizadas.
¿Qué están haciendo los países?
Varios gobiernos están invirtiendo seriamente en Evaluaciones/Referencias de IA para medir capacidades peligrosas:
- El AISI del Reino Unido ha creado el marco Inspect , ha escrito Replibench y ahora está invirtiendo 15 millones de libras esterlinas en subvenciones para evaluaciones e investigación de alineación
- La Comisión Europea está lanzando una licitación de 10 millones de euros y una gran subvención con el programa Horizonte . También han lanzado el Código de Práctica de IA de Propósito General , que incluye un requisito para realizar “evaluaciones de modelos de última generación” (Medida 3.2).
- El Plan de Acción de IA de EE. UU. menciona evaluaciones y controles de hardware
- China (Concordia AI + Laboratorio de IA de Shanghái) acaba de publicar un informe con muchas evaluaciones
- Otros gobiernos también están trabajando en evaluaciones
El hecho de que tantos países estén trabajando en evaluaciones crea una oportunidad muy importante para nosotros. Si estos países e institutos utilizaran las mismas referencias y tuvieran algunas líneas rojas comunes, sería un paso importante hacia un tratado global. Además, debemos comunicar claramente a los políticos que cuando se cruza una línea roja, es hora de detener el desarrollo adicional.