L'IA peut-elle être surhumaine? Les défauts dans le meilleur joueur bot soulèvent des doutes

L'IA peut-elle être surhumaine? Les défauts dans le meilleur joueur bot soulèvent des doutes
"Le document laisse un grand point de questions sur la façon dont l'objectif ambitieux peut être atteint pour construire des agents d'IA robustes du monde réel à qui les gens peuvent avoir confiance", explique Huan Zhang, informaticien de l'Université de l'Illinois Urbana-Champay. Stephen Casper, un informaticien du Massachusetts Institute of Technology de Cambridge, ajoute: "Jusqu'à présent, il a fourni certaines des preuves les plus solides qu'il est difficile de mettre en œuvre des modèles avancés aussi de manière fiable que vous le souhaitez."
L'analyse qu'en juin "Cliquez sur" Data-action = "Anchor-Link" Data-Track Label = "Accédez à la référence" Data Track-Category = "Sources"> 1
Lorsque le coup, deux joueurs placent alternativement les pierres en noir et blanc sur une grille pour entourer et capturer les pierres de l'autre joueur. En 2022, les chercheurs ont rapporté
Exploitation de Katago
était-ce une chose unique, ou ce travail a-t-il souligné une faiblesse fondamentale à Katago-et, en expansion, à d'autres systèmes d'IA avec des compétences apparemment surhumaines? Pour enquêter, les chercheurs sous la direction d'Adam Gleave, directeur général de Far AI, une organisation de recherche à but non lucratif à Berkeley, en Californie et co-auteur des articles de 2022 La première défense a été celle que les développeurs de Katago avaient déjà utilisé après les attaques de 2022: Katago Exemples de situations de jeu qui ont été impliquées dans les attaques et le laisser jouer pour apprendre à jouer contre ces situations. Ceci est similaire à celui-ci car il a généralement enseigné le go. Cependant, les auteurs des derniers articles ont constaté qu'une offre contradictoire a appris à battre cette version mise à jour de Katago et a remporté 91% du temps. La deuxième stratégie de défense que l'équipe de Gleave a essayé était itérative: former une version de Katago contre Adversarille Bots, puis former des attaquants contre le Katago mis à jour et ainsi de suite pour neuf tours. Mais cela n'a pas non plus conduit à une version invincible de Katago. Les assaillants ont continué à trouver des faiblesses, la dernière attaque, Katago a battu 81% du temps. En tant que troisième stratégie de défense, les chercheurs ont formé un nouveau système d'IA à jouer à partir de zéro. Katago est basé sur un modèle de calcul appelé réseau neuronal convolutionnel (CNN). Les chercheurs soupçonnaient que les CNN pourraient se concentrer trop sur les détails locaux et ignorer les modèles mondiaux. Par conséquent, ils ont construit un lecteur GO avec une alternative
Et puisque les gens sont capables d'utiliser les tactiques des robots contradictoires pour vaincre les go-kis de premier plan, est-il logique d'appeler ces systèmes surhumains? "C'est une excellente question avec laquelle j'ai définitivement lutté", explique Gleave. "Nous avons commencé à dire" généralement surhumain "." David Wu, un informaticien de New York, qui a développé Katago pour la première fois, dit que de forts ke-kis sont "en moyenne surhumains", mais pas "dans les pires cas". Gleave dit que les résultats pourraient avoir des effets de grande envergure sur les systèmes d'IA, y compris le Modèles de grande langue basés sur des chatbots tels que Chatgpt . "La conclusion la plus importante pour l'IA est que ces points faibles seront difficiles à éliminer", explique Gleave. "Si nous ne pouvons pas résoudre le problème dans un domaine simple comme Go, alors il semble y avoir peu de perspectives dans un avenir proche de la résolution de problèmes similaires comme le jailbreaks à Chatt." Ce que les résultats signifient pour la possibilité de créer une IA qui dépasse largement les compétences humaines est moins claire, explique Zhang. "Bien que cela indique superficiellement que les gens peuvent encore garder les avantages cognitifs importants par rapport à l'IA", dit-il, "je pense que la connaissance cruciale est que Nous ne comprenons pas encore pleinement les systèmes d'IA que nous construisons aujourd'hui .
-
Tseng, T., McLean, E., Pelrine, K., Wang, T. T. & Gleave, A. Preprint at arxiv https://doi.org/10.48550/arxiv.2406.12843 (2024).
-
wang, T. T. et al. Preprint à arXiv https://doi.org/10.48550/arxiv.2211.00241 .