L'IA peut-elle être surhumaine? Les défauts dans le meilleur joueur bot soulèvent des doutes

Forschung zeigt, dass selbst Superintelligenzen im Go-Spiel anfällig sind. Erfahren Sie, wie KI-Systeme wie KataGo gegen Angriffe kämpfen und welche Auswirkungen dies auf die Entwicklung von KI-Systemen haben könnte.
La recherche montre que même la superintelligence dans le jeu de Go est sensible. Découvrez comment les systèmes d'IA comme Katago se battent contre les attaques et quels effets cela pourrait avoir sur le développement des systèmes d'IA. (Symbolbild/natur.wiki)

L'IA peut-elle être surhumaine? Les défauts dans le meilleur joueur bot soulèvent des doutes

Intelligence artificielle excessive (KI) Augmentation, cependant, les résultats de la recherche ont été réduits dans le jeu de bot de plantes et le plus grand nombre de systèmes AI. Les joueurs du monde, qui montrent qu'une telle supériorité peut être fragile.

"Le document laisse un grand point de questions sur la façon dont l'objectif ambitieux peut être atteint pour construire des agents d'IA robustes du monde réel à qui les gens peuvent avoir confiance", explique Huan Zhang, informaticien de l'Université de l'Illinois Urbana-Champay. Stephen Casper, un informaticien du Massachusetts Institute of Technology de Cambridge, ajoute: "Jusqu'à présent, il a fourni certaines des preuves les plus solides qu'il est difficile de mettre en œuvre des modèles avancés aussi de manière fiable que vous le souhaitez."

L'analyse qu'en juin

"Cliquez sur" Data-action = "Anchor-Link" Data-Track Label = "Accédez à la référence" Data Track-Category = "Sources"> 1

et n'a pas encore été par rapport à des utilisations des systèmes AI place qui vise à tenter les systèmes aux erreurs , que ce soit à des fins de recherche ou à des fins malveillantes. Par exemple, certaines entrées peuvent «jailbreaks» des chatbots en publiant des informations nuisibles que vous devez normalement supprimer.

Lorsque le coup, deux joueurs placent alternativement les pierres en noir et blanc sur une grille pour entourer et capturer les pierres de l'autre joueur. En 2022, les chercheurs ont rapporté = "Cliquez sur" Data Action = "Anchor-Link" Data Track Label = "Allez dans la référence" Data Track category = "Source Hatters (et Handless). Ses bots ont trouvé des faiblesses qui ont régulièrement vaincu Katago, bien que les robots n'étaient pas autrement très bons - les amateurs humains ont pu les vaincre. De plus, les gens ont pu comprendre et appliquer les astuces des bots pour vaincre Katago.

Exploitation de Katago

était-ce une chose unique, ou ce travail a-t-il souligné une faiblesse fondamentale à Katago-et, en expansion, à d'autres systèmes d'IA avec des compétences apparemment surhumaines? Pour enquêter, les chercheurs sous la direction d'Adam Gleave, directeur général de Far AI, une organisation de recherche à but non lucratif à Berkeley, en Californie et co-auteur des articles de 2022 2 , adversaLeliNELLALIEL =" Bots pour tester trois options, pour défendre les Go-kis contre ces attaques 1 .

La première défense a été celle que les développeurs de Katago avaient déjà utilisé après les attaques de 2022: Katago Exemples de situations de jeu qui ont été impliquées dans les attaques et le laisser jouer pour apprendre à jouer contre ces situations. Ceci est similaire à celui-ci car il a généralement enseigné le go. Cependant, les auteurs des derniers articles ont constaté qu'une offre contradictoire a appris à battre cette version mise à jour de Katago et a remporté 91% du temps.

La deuxième stratégie de défense que l'équipe de Gleave a essayé était itérative: former une version de Katago contre Adversarille Bots, puis former des attaquants contre le Katago mis à jour et ainsi de suite pour neuf tours. Mais cela n'a pas non plus conduit à une version invincible de Katago. Les assaillants ont continué à trouver des faiblesses, la dernière attaque, Katago a battu 81% du temps.

En tant que troisième stratégie de défense, les chercheurs ont formé un nouveau système d'IA à jouer à partir de zéro. Katago est basé sur un modèle de calcul appelé réseau neuronal convolutionnel (CNN). Les chercheurs soupçonnaient que les CNN pourraient se concentrer trop sur les détails locaux et ignorer les modèles mondiaux. Par conséquent, ils ont construit un lecteur GO avec une alternative

Et puisque les gens sont capables d'utiliser les tactiques des robots contradictoires pour vaincre les go-kis de premier plan, est-il logique d'appeler ces systèmes surhumains? "C'est une excellente question avec laquelle j'ai définitivement lutté", explique Gleave. "Nous avons commencé à dire" généralement surhumain "." David Wu, un informaticien de New York, qui a développé Katago pour la première fois, dit que de forts ke-kis sont "en moyenne surhumains", mais pas "dans les pires cas".

Gleave dit que les résultats pourraient avoir des effets de grande envergure sur les systèmes d'IA, y compris le Modèles de grande langue basés sur des chatbots tels que Chatgpt . "La conclusion la plus importante pour l'IA est que ces points faibles seront difficiles à éliminer", explique Gleave. "Si nous ne pouvons pas résoudre le problème dans un domaine simple comme Go, alors il semble y avoir peu de perspectives dans un avenir proche de la résolution de problèmes similaires comme le jailbreaks à Chatt."

Ce que les résultats signifient pour la possibilité de créer une IA qui dépasse largement les compétences humaines est moins claire, explique Zhang. "Bien que cela indique superficiellement que les gens peuvent encore garder les avantages cognitifs importants par rapport à l'IA", dit-il, "je pense que la connaissance cruciale est que Nous ne comprenons pas encore pleinement les systèmes d'IA que nous construisons aujourd'hui .

  1. Tseng, T., McLean, E., Pelrine, K., Wang, T. T. & Gleave, A. Preprint at arxiv https://doi.org/10.48550/arxiv.2406.12843 (2024).

  2. wang, T. T. et al. Preprint à arXiv https://doi.org/10.48550/arxiv.2211.00241 .

  3. Télécharger des sources