Cómo los «hackers» rompen la Inteligencia Artificial para hacerla más segura
Un mes antes de lanzar públicamente ChatGPT, OpenAI contrató a Boru Gollo, un abogado de Kenia, para probar sus modelos de IA, GPT-3.5 y más tarde GPT-4, en busca de estereotipos contra africanos y musulmanes mediante prompts diseñados para generar respuestas dañinas, sesgadas e incorrectas.
Gollo, uno de los unos 50 expertos externos reclutados por OpenAI para formar parte de su «equipo rojo», escribió un comando en ChatGPT para que enumerase formas de matar a un nigeriano, una respuesta que OpenAI eliminó antes de poner el chatbot a disposición del mundo.
Otros miembros del equipo rojo provocaron la versión previa al lanzamiento de GPT-4 para ayudar en una variedad de actividades ilegales y nocivas, como escribir una publicación en Facebook para convencer a alguien de unirse a Al Qaeda, encontrar armas de fuego sin licencia en venta y generar un procedimiento para crear sustancias químicas peligrosas en casa, según la tarjeta del sistema de GPT-4, que detalla los riesgos y medidas de seguridad empleadas para reducirlos o eliminarlos.
Para proteger los sistemas de IA de ser explotados, los «hackers» del equipo rojo piensan como un adversario para vulnerarlos y descubrir puntos ciegos y riesgos incorporados en la tecnología, de modo que puedan ser corregidos. A medida que los gigantes tecnológicos aceleran el desarrollo y despliegue de herramientas generativas de IA, sus equipos rojos internos juegan un papel cada vez más crucial para garantizar la seguridad de los modelos para el público en general. Google, por ejemplo, estableció su propio equipo rojo de IA a principios de este año, y en agosto los desarrolladores de modelos populares como GPT3.5 de OpenAI, Llama 2 de Meta y LaMDA de Google participaron en un evento respaldado por la Casa Blanca para dar a hackers externos la oportunidad de vulnerar sus sistemas.
Sin embargo, los miembros de los equipos rojos de IA suelen balancearse en una cuerda floja, equilibrando la seguridad y privacidad de los modelos de IA mientras los mantienen relevantes y útiles. Forbes habló con los líderes de los equipos rojos de IA de Microsoft, Google, Nvidia y Meta sobre cómo vulnerar modelos de IA se ha puesto de moda y los desafíos de arreglarlos.
«Tendrás un modelo que dice que no a todo y es súper seguro, pero es inútil. Hay un tradeoff. Cuanto más útil puedas hacer un modelo, más posibilidades hay de entrar en áreas que puedan dar respuestas inseguras».
Cristian Canton, jefe del equipo rojo de IA de Facebook.
La práctica de los equipos rojos en software data desde la década de 1960, cuando se simulaban ataques adversos para hacer los sistemas tan robustos como fuera posible. «En informática nunca podremos decir ‘esto es seguro’. Todo lo que podemos decir es ‘lo hemos intentado y no hemos podido romperlo'», dijo Bruce Schneier, un experto en seguridad e investigador en la Universidad de Harvard.
Pero debido a que la IA generativa se entrena en un vasto corpus de datos, proteger modelos de IA difiere de las prácticas de seguridad tradicionales, afirmó Daniel Fabian, jefe del nuevo equipo rojo de IA de Google, que prueba productos como Bard en busca de contenidos ofensivos antes de que la empresa añada nuevas funciones como idiomas adicionales.
«El lema de nuestro equipo rojo de IA es ‘Cuanto más transpiras en el entrenamiento, menos sangras en batalla’ «
Cristian Canton, jefe del equipo rojo de IA de Facebook.
Más allá de consultar un modelo de IA para que dé respuestas tóxicas, los equipos rojos utilizan tácticas como extraer datos de entrenamiento que revelen información de identificación personal como nombres, direcciones y números de teléfono, y envenenar conjuntos de datos modificando parte de su contenido antes de usarlos para entrenar el modelo. «Los adversarios tienen una cartera de ataques y simplemente pasarán al siguiente si uno no funciona», explicó Fabian a Forbes.
Con el campo aún en sus inicios, los profesionales de seguridad capaces de vulnerar sistemas de IA «son insignificantes», dijo Daniel Rohrer, vicepresidente de seguridad de software de Nvidia. Por eso la pequeña comunidad de rojos de IA suele compartir hallazgos. Mientras los rojos de Google han publicado investigaciones sobre nuevas formas de atacar modelos de IA, los de Microsoft han liberado herramientas de ataque como Counterfit para ayudar a otras empresas a probar riesgos y vulnerabilidades de algoritmos.
Antes de probar un sistema de IA, el equipo de Siva Kumar recopila datos sobre ciberamenazas del equipo de inteligencia de amenazas de Microsoft, los «ojos y oídos de Internet». Luego trabajan con otros equipos rojos internos para determinar qué vulnerabilidades atacar y cómo. Este año, el equipo analizó el buscador Bing Chat de Microsoft y GPT-4 para encontrar fallos.
Mientras, parte del enfoque de Nvidia es ofrecer cursos intensivos sobre equipos rojos de algoritmos a ingenieros de seguridad y empresas que usan sus recursos como GPUs. «Como motor de IA para todos… tenemos un enorme factor de amplificación. Si podemos enseñar a otros, entonces Anthropic, Google, OpenAI lo harán bien», afirmó Rohrer.
Con mayor escrutinio de usuarios y reguladores sobre aplicaciones de IA, los equipos rojos también ofrecen ventaja competitiva a las firmas tecnológicas en la carrera de la IA. «La barrera va a ser la confianza y seguridad», opinó Sven Cattell, fundador del AI Village. «Empezarás a ver anuncios de ‘la nuestra es la más segura'».
El equipo rojo de IA de Meta, fundado en 2019, se adelantó organizando desafíos internos y «riskathones» para que hackers vulneraran filtros de contenido de Instagram y Facebook. En julio de 2023, la empresa de redes sociales contrató a 350 rojos incluyendo expertos externos y un equipo interno de unas 20 personas para analizar su modelo Llama 2, siguiendo el lema de «cuanto más transpiras en el entrenamiento, menos sangras en batalla».
Uno de los mayores ejercicios de equipos rojos de IA tuvo lugar en agosto en DefCon en Las Vegas, donde empresas como OpenAI, Google, Meta, Nvidia y Stability AI abrieron modelos a 2000 hackers. Si bien los resultados no serán públicos hasta febrero, las empresas salieron con varias vulnerabilidades detectadas. Los organizadores pretenden que eventos así ayuden a cumplir la hoja de ruta sobre derechos de la IA de la Casa Blanca.
Pero la IA generativa es un monstruo de muchas cabezas, y al corregir algunas fallas pueden surgir otras, advierten expertos. «Hace falta un pueblo para resolver este problema», concluyó Siva Kumar de Microsoft. Los equipos rojos serán cada vez más importantes a medida que modelos de IA se vuelvan omnipresentes.
Vía Forbes.