AI可以是超人吗？顶级玩家机器人的缺陷引起了疑问

研究表明，即使在GO游戏中的超级智能也很容易受到影响。找出像卡塔哥这样的AI系统如何抵抗攻击以及这可能对AI系统开发产生什么影响。

08. Juli 2024

Natur.wiki Autoren-Team

Artikel als PDF

Kommentare

Diesen Artikel teilen:

<源type =“ image/webp” srcset =“ https://media.nature.com/lw767/magazine-assets/d41586-02218-7/d4186-7/d41586-02222186-02218-7_27308012.jpg？ https://media.nature.com/lw319/magazine-assets/d41586-02218-7/d41586-02218-02218-7_27308012.jpg?as=webp 319w“ size =”（max-width）319px，（max-width）319px，（max-width）

谈论“身体文本链接”>过多的人工智能（KI）最佳的董事会 bot the the the Systems and a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a世界上的人类参与者表明，这种优越性可能会引起疑问，这可能会遇到更危害其安全性和可靠性的弱点，甚至是他们的声称是“超级人类”

“该论文对如何建立人们可以信任的现实世界中强大的AI代理人的雄心勃勃的目标留下了一个巨大的问号，”伊利诺伊州Urbana-Champay大学计算机科学家Huan Zhang说。马萨诸塞州剑桥理工学院的计算机科学家斯蒂芬·卡斯珀（Stephen Casper）补充说：“到目前为止，它已经提供了一些最有力的证据，表明很难根据您想要可靠地实施高级模型。”

分析在6月 1 and has not yet been peer-reviewed uses the AI systems Entries 旨在吸引系统错误的位置无论是出于研究目的还是出于恶意目的。例如，某些条目可以通过发布通常应该压制的有害信息来“越狱”聊天机器人。

旅行时，两个玩家交替将黑色和白色的石头放在网格上，以包围和捕获另一个玩家的石头。在2022年，研究人员报告了 -

剥削卡塔哥

这是一件独特的事情，还是这项工作指出了卡塔哥的根本弱点，并且在扩展到其他显然是超人技能的AI系统中？ To investigate this, the researchers under the direction of Adam Gleave, Managing Director of Far Ai, a non-profit research organization in Berkeley, California and co-author of the Papers from 2022 2 , Aversarielle bot测试三个选项，以防御此类攻击 1

第一个防御是卡塔哥开发人员在2022年攻击之后已经使用的：卡塔哥的比赛情况的例子，这些情况涉及攻击，并让它发挥作用，以学习如何在这些情况下进行比赛。这与通常教导的那样类似。但是，最新论文的作者发现，对抗性的报价学会了以击败卡塔哥的最新版本，并有91％的时间赢得了胜利。

Greave团队尝试的第二种防御策略是迭代的：训练Katago对Avserarielle Bots的版本，然后训练对更新的Katago进行攻击，等等。但这也不会导致无敌的卡塔哥。攻击者继续发现弱点，卡塔哥的最后一次攻击有81％的时间击败。

作为第三种防御策略，研究人员从头开始训练了新的播放AI系统。卡塔哥基于称为卷积神经网络（CNN）的计算模型。研究人员怀疑CNN可以过多地专注于当地细节并忽略全球模式。因此，他们用替代方案构建了一个GO播放器变压器（VIT）。但是她的对抗性机器人发现了一场新的攻击，帮助他在VIT系统上赢得了78％的时间。

弱对手

在所有这些情况下，对抗性机器人 - 尽管他们能够击败卡塔哥和其他领先的播放系统，但受过训练，可以发现其他AIS中的隐藏弱点，而不是多才多艺的战略家。 “对手仍然很虚弱 - 我们很容易击败他们，” Gleave说。

并且由于人们能够使用对抗机器人的策略来击败领先的行动，所以称这些系统为超人是有意义的吗？ Gleave说：“这是我肯定会搏斗的一个很好的问题。” “我们开始说“通常是超人”。”纽约的计算机科学家戴维·吴（David Wu）首先开发了卡塔哥（Katago）。

Gleave says that the results could have far-reaching effects on AI systems, including the 基于聊天机器人（例如Chatgpt）的大型语言模型。 Gleave说：“对AI的最重要发现是这些弱点将很难消除。” “如果我们无法在像GO这样的简单领域解决这个问题，那么在不久的将来，即将解决类似的问题，例如Chatt的越狱。”

张说，

结果对于创建超过人类技能的AI的可能性而言是什么意义，这还不太清楚。他说：“尽管从表面上表明人们仍然可以保持重要的认知优势，但我认为至关重要的知识是我们尚未完全了解我们今天构建的AI系统

tseng，T.，McLean，E.，Pelrine，K. data-Track-label =“ https://doi.org/10.48550/arxiv.2406.12843”> https://doi.org/10.48550/arxiv.2406.12843 （2024）。
wang，T。T. 等。 arXiv的预印本https://doi.org/10.48550/arxiv.2211.00241 。

<使用xmlns：xlink =“ http://ww3.org/1999/xlink” xlink：xlink：href =“＃