Conversations sur intelligence artificielle (IA) surhumaine augmenter. Mais des recherches ont révélé des faiblesses dans l'un des systèmes d'IA les plus performants - un robot qui joue au jeu de société Go et peut battre les meilleurs joueurs humains du monde - démontrant qu'une telle supériorité peut être fragile. L'étude soulève la question de savoir si les systèmes d'IA plus généraux pourraient être vulnérables à des vulnérabilités qui pourraient menacer leur sécurité et leur fiabilité, voire leur prétention d'être « surhumaines ».
« Cet article laisse un grand point d'interrogation sur la manière d'atteindre l'objectif ambitieux de créer des agents d'IA robustes et réels auxquels les gens peuvent avoir confiance », déclare Huan Zhang, informaticien à l'Université de l'Illinois à Urbana-Champaign. Stephen Casper, informaticien au Massachusetts Institute of Technology de Cambridge, ajoute : "Cela fournit l'une des preuves les plus solides à ce jour qu'il est difficile de mettre en œuvre des modèles avancés de manière aussi fiable qu'on le souhaiterait."
L'analyse en juin publié en ligne sous forme de prépublication 1et n'a pas encore été évalué par les pairs, utilise ce qu'on appelle des attaques contradictoires - l'entrée des systèmes d'IA qui visent à provoquer des erreurs dans les systèmes, que ce soit à des fins de recherche ou à des fins malveillantes. Par exemple, certaines entrées peuvent « jailbreaker » les chatbots en émettant des informations malveillantes qu'ils devraient normalement supprimer.
Au Go, deux joueurs placent à tour de rôle des pierres noires et blanches sur une grille pour entourer et piéger les pierres de l'autre joueur. En 2022, des chercheurs ont rapporté entraîner des robots IA adversaires pour vaincre KataGo 2, le meilleur système d'IA Go-playing open source qui bat généralement les meilleurs humains haut la main (et sans aucune main). Leurs robots ont découvert des vulnérabilités qui ont régulièrement vaincu KataGo, même si les robots n'étaient pas très bons autrement - des amateurs humains pourraient les vaincre. De plus, les humains ont pu comprendre et utiliser les astuces des robots pour vaincre KataGo.
Exploitation de KataGo
Était-ce un cas isolé, ou ce travail a-t-il mis en évidence une faiblesse fondamentale de KataGo – et, par extension, d’autres systèmes d’IA dotés de capacités apparemment surhumaines ? Pour enquêter sur cela, des chercheurs dirigés par Adam Gleave, directeur exécutif de FAR AI, un organisme de recherche à but non lucratif de Berkeley, en Californie, et co-auteur de l'article de 2022, utilisent l'IA. 2, des robots antagonistes pour tester trois façons de défendre les IA Go contre de telles attaques 1.
La première défense était celle que les développeurs de KataGo avaient déjà utilisée après les attaques de 2022 : donner à KataGo des exemples de situations de jeu impliquées dans les attaques et le laisser jouer pour apprendre à jouer contre ces situations. Ceci est similaire à la façon dont on enseigne généralement à jouer au Go. Cependant, les auteurs du dernier article ont découvert qu'un robot antagoniste avait appris à battre même cette version mise à jour de KataGo et avait gagné 91 % du temps.
La deuxième stratégie défensive essayée par l'équipe de Gleave était itérative : entraîner une version de KataGo contre des robots adverses, puis entraîner des attaquants contre le KataGo mis à jour, et ainsi de suite, pendant neuf tours. Mais même cela n’a pas conduit à une version invincible de KataGo. Les attaquants ont continué à découvrir des vulnérabilités, la dernière attaque ayant vaincu KataGo dans 81 % des cas.
Comme troisième stratégie de défense, les chercheurs ont formé un nouveau système d’IA Go-playing à partir de zéro. KataGo est basé sur un modèle informatique connu sous le nom de réseau neuronal convolutif (CNN). Les chercheurs soupçonnaient que les CNN pourraient trop se concentrer sur les détails locaux et passer à côté des tendances mondiales. Ils ont donc construit un lecteur Go avec une alternative réseau neuronal appelé transformateur de vision (ViT). Mais leur robot adverse a trouvé une nouvelle attaque qui l’a aidé à vaincre le système ViT dans 78 % du temps.
Des adversaires faibles
Dans tous ces cas, les robots adverses – bien que capables de battre KataGo et d’autres systèmes de jeu de Go de premier plan – ont été formés pour découvrir des vulnérabilités cachées dans d’autres IA, plutôt que pour être des stratèges chevronnés. "Les adversaires sont encore assez faibles – nous les avons battus assez facilement", explique Gleave.
Et puisque les humains sont capables d’utiliser les tactiques des robots adverses pour vaincre les principales IA de Go, est-il toujours logique de qualifier ces systèmes de surhumains ? "C'est une excellente question avec laquelle je me suis vraiment débattu", déclare Gleave. « Nous avons commencé à dire : « généralement surhumain ». » David Wu, un informaticien de New York qui a été le premier à développer KataGo, affirme que les IA Go puissantes sont « surhumaines en moyenne », mais pas « dans le pire des cas ».
Gleave affirme que les résultats pourraient avoir des implications considérables pour les systèmes d'IA, notamment grands modèles de langage qui sous-tendent les chatbots comme ChatGPT. « Ce qu’il faut retenir de l’IA, c’est que ces vulnérabilités seront difficiles à corriger », explique Gleave. "Si nous ne pouvons pas résoudre le problème dans un domaine simple comme Go, alors il semble y avoir peu de chances de résoudre des problèmes similaires comme les jailbreaks dans ChatGPT dans un avenir proche."
Ce que signifient ces résultats pour la possibilité de créer une IA qui dépasse largement les capacités humaines est moins clair, dit Zhang. « Bien qu’en apparence cela suggère que les humains pourraient conserver pendant un certain temps d’importants avantages cognitifs par rapport à l’IA », dit-il, « je pense que l’idée clé est que Nous ne comprenons pas encore pleinement les systèmes d'IA que nous construisons aujourd'hui.»
