Conversaciones sobre inteligencia artificial (IA) sobrehumana aumentar. Pero la investigación ha revelado debilidades en uno de los sistemas de inteligencia artificial más exitosos, un robot que juega al juego de mesa Go y puede vencer a los mejores jugadores humanos del mundo, lo que demuestra que esa superioridad puede ser frágil. El estudio plantea dudas sobre si los sistemas de IA más generales podrían ser vulnerables a vulnerabilidades que podrían amenazar su seguridad y confiabilidad, e incluso su afirmación de ser "sobrehumanos".

"El documento deja un gran interrogante sobre cómo lograr el ambicioso objetivo de construir agentes de IA robustos y del mundo real en los que la gente pueda confiar", afirma Huan Zhang, científico informático de la Universidad de Illinois en Urbana-Champaign. Stephen Casper, científico informático del Instituto Tecnológico de Massachusetts en Cambridge, añade: "Proporciona una de las pruebas más sólidas hasta el momento de que es difícil implementar modelos avanzados con la fiabilidad que uno quisiera".

El análisis en junio publicado en línea como preimpresión 1y aún no ha sido revisado por pares, utiliza los llamados ataques adversarios: la entrada de los sistemas de inteligencia artificial que tienen como objetivo provocar que los sistemas cometan errores, ya sea con fines de investigación o con fines maliciosos. Por ejemplo, ciertas entradas pueden hacer jailbreak a los chatbots emitiendo información maliciosa que normalmente deberían suprimir.

En Go, dos jugadores se turnan para colocar piedras blancas y negras en una cuadrícula para rodear y atrapar las piedras del otro jugador. En 2022, los investigadores informaron sobre entrenando robots de IA adversarios para derrotar a KataGo 2, el mejor sistema de inteligencia artificial de código abierto para jugar Go que generalmente vence a los mejores humanos cómodamente (y sin manos). Sus robots encontraron vulnerabilidades que derrotaban regularmente a KataGo, aunque los robots no eran muy buenos por lo demás: los aficionados humanos podían derrotarlos. Además, los humanos pudieron comprender y utilizar los trucos de los robots para derrotar a KataGo.

Explotación de KataGo

¿Fue algo aislado o este trabajo señaló una debilidad fundamental en KataGo y, por extensión, en otros sistemas de inteligencia artificial con habilidades aparentemente sobrehumanas? Para investigar esto, investigadores dirigidos por Adam Gleave, director ejecutivo de FAR AI, una organización de investigación sin fines de lucro en Berkeley, California, y coautor del artículo de 2022, están utilizando IA. 2, robots adversarios para probar tres formas de defender las Go AI contra tales ataques 1.

La primera defensa fue una que los desarrolladores de KataGo ya habían usado después de los ataques de 2022: darle a KataGo ejemplos de situaciones de juego que estuvieron involucradas en los ataques y dejarlo jugar para aprender a jugar contra esas situaciones. Esto es similar a cómo se enseña generalmente a jugar Go. Sin embargo, los autores del último artículo descubrieron que un robot adversario aprendió a vencer incluso a esta versión actualizada de KataGo y ganó el 91% de las veces.

La segunda estrategia defensiva que intentó el equipo de Gleave fue iterativa: entrenar una versión de KataGo contra robots adversarios, luego entrenar atacantes contra el KataGo actualizado, y así sucesivamente, durante nueve rondas. Pero ni siquiera eso condujo a una versión invencible de KataGo. Los atacantes continuaron encontrando vulnerabilidades y el último ataque derrotó a KataGo el 81% de las veces.

Como tercera estrategia de defensa, los investigadores entrenaron un nuevo sistema de IA para jugar Go desde cero. KataGo se basa en un modelo computacional conocido como red neuronal convolucional (CNN). Los investigadores sospecharon que las CNN podrían centrarse demasiado en detalles locales y pasar por alto patrones globales. Entonces construyeron un reproductor Go con una alternativa. red neuronal llamado transformador de visión (ViT). Pero su robot adversario encontró un nuevo ataque que le ayudó a ganarle al sistema ViT el 78% de las veces.

Oponentes débiles

En todos estos casos, los robots adversarios, aunque capaces de vencer a KataGo y otros sistemas líderes de juego de Go, fueron entrenados para descubrir vulnerabilidades ocultas en otras IA, en lugar de ser estrategas completos. "Los oponentes todavía son bastante débiles; les ganamos con bastante facilidad", dice Gleave.

Y dado que los humanos pueden utilizar las tácticas de los robots adversarios para derrotar a las principales Go AI, ¿todavía tiene sentido llamar a estos sistemas sobrehumanos? "Esa es una gran pregunta y definitivamente he luchado con ella", dice Gleave. "Comenzamos a decir 'típicamente sobrehumano'". David Wu, un científico informático de Nueva York que desarrolló KataGo por primera vez, dice que las IA Go fuertes son "sobrehumanas en promedio", pero no "en el peor de los casos".

Gleave dice que los hallazgos podrían tener implicaciones de gran alcance para los sistemas de IA, incluido el Grandes modelos de lenguaje que subyacen a chatbots como ChatGPT.. "La conclusión clave de la IA es que estas vulnerabilidades serán difíciles de abordar", afirma Gleave. "Si no podemos resolver el problema en un área simple como Go, entonces parece haber pocas posibilidades de solucionar problemas similares como los jailbreak en ChatGPT en el futuro cercano".

Lo que significan los resultados para la posibilidad de crear una IA que supere ampliamente las capacidades humanas no está tan claro, afirma Zhang. "Aunque en la superficie esto sugiere que los humanos pueden conservar importantes ventajas cognitivas sobre la IA durante algún tiempo", dice, "creo que la idea clave es que Todavía no comprendemos completamente los sistemas de inteligencia artificial que estamos construyendo hoy.”