AI可以是超人吗?顶级玩家机器人的缺陷引起了疑问

AI可以是超人吗?顶级玩家机器人的缺陷引起了疑问
谈论“身体文本链接”>过多的人工智能(KI)最佳的董事会 bot the the the Systems and a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a世界上的人类参与者表明,这种优越性可能会引起疑问,这可能会遇到更危害其安全性和可靠性的弱点,甚至是他们的声称是“超级人类”
“该论文对如何建立人们可以信任的现实世界中强大的AI代理人的雄心勃勃的目标留下了一个巨大的问号,”伊利诺伊州Urbana-Champay大学计算机科学家Huan Zhang说。马萨诸塞州剑桥理工学院的计算机科学家斯蒂芬·卡斯珀(Stephen Casper)补充说:“到目前为止,它已经提供了一些最有力的证据,表明很难根据您想要可靠地实施高级模型。”
分析在6月 1 and has not yet been peer-reviewed uses the AI systems Entries 旨在吸引系统错误的位置无论是出于研究目的还是出于恶意目的。例如,某些条目可以通过发布通常应该压制的有害信息来“越狱”聊天机器人。
旅行时,两个玩家交替将黑色和白色的石头放在网格上,以包围和捕获另一个玩家的石头。在2022年,研究人员报告了 -
这是一件独特的事情,还是这项工作指出了卡塔哥的根本弱点,并且在扩展到其他显然是超人技能的AI系统中? To investigate this, the researchers under the direction of Adam Gleave, Managing Director of Far Ai, a non-profit research organization in Berkeley, California and co-author of the Papers from 2022 2 , Aversarielle bot测试三个选项,以防御此类攻击剥削卡塔哥
第一个防御是卡塔哥开发人员在2022年攻击之后已经使用的:卡塔哥的比赛情况的例子,这些情况涉及攻击,并让它发挥作用,以学习如何在这些情况下进行比赛。这与通常教导的那样类似。但是,最新论文的作者发现,对抗性的报价学会了以击败卡塔哥的最新版本,并有91%的时间赢得了胜利。
Greave团队尝试的第二种防御策略是迭代的:训练Katago对Avserarielle Bots的版本,然后训练对更新的Katago进行攻击,等等。但这也不会导致无敌的卡塔哥。攻击者继续发现弱点,卡塔哥的最后一次攻击有81%的时间击败。
作为第三种防御策略,研究人员从头开始训练了新的播放AI系统。卡塔哥基于称为卷积神经网络(CNN)的计算模型。研究人员怀疑CNN可以过多地专注于当地细节并忽略全球模式。因此,他们用替代方案构建了一个GO播放器变压器(VIT)。但是她的对抗性机器人发现了一场新的攻击,帮助他在VIT系统上赢得了78%的时间。
弱对手
在所有这些情况下,对抗性机器人 - 尽管他们能够击败卡塔哥和其他领先的播放系统,但受过训练,可以发现其他AIS中的隐藏弱点,而不是多才多艺的战略家。 “对手仍然很虚弱 - 我们很容易击败他们,” Gleave说。并且由于人们能够使用对抗机器人的策略来击败领先的行动,所以称这些系统为超人是有意义的吗? Gleave说:“这是我肯定会搏斗的一个很好的问题。” “我们开始说“通常是超人”。”纽约的计算机科学家戴维·吴(David Wu)首先开发了卡塔哥(Katago)。
Gleave says that the results could have far-reaching effects on AI systems, including the 基于聊天机器人(例如Chatgpt)的大型语言模型。 Gleave说:“对AI的最重要发现是这些弱点将很难消除。” “如果我们无法在像GO这样的简单领域解决这个问题,那么在不久的将来,即将解决类似的问题,例如Chatt的越狱。”
张说,结果对于创建超过人类技能的AI的可能性而言是什么意义,这还不太清楚。他说:“尽管从表面上表明人们仍然可以保持重要的认知优势,但我认为至关重要的知识是我们尚未完全了解我们今天构建的AI系统
-
tseng,T.,McLean,E.,Pelrine,K. data-Track-label =“ https://doi.org/10.48550/arxiv.2406.12843”> https://doi.org/10.48550/arxiv.2406.12843 (2024)。
-
wang,T。T. 等。 arXiv的预印本https://doi.org/10.48550/arxiv.2211.00241 。
在
<使用xmlns:xlink =“ http://ww3.org/1999/xlink” xlink:xlink:href =“#