关于的对话 超人人工智能(AI) 增加。但研究揭示了最成功的人工智能系统之一的弱点——一个可以玩棋盘游戏围棋并可以击败世界上最好的人类棋手的机器人——这表明这种优势可能是脆弱的。这项研究提出了这样的问题:更通用的人工智能系统是否容易受到漏洞的影响,这些漏洞可能会威胁到它们的安全性和可靠性,甚至威胁到它们自称的“超人”。

伊利诺伊大学厄巴纳-香槟分校计算机科学家张焕表示:“这篇论文对于如何实现构建人们可以信任的强大的、现实世界的人工智能代理这一雄心勃勃的目标留下了一个很大的问号。”剑桥麻省理工学院的计算机科学家 Stephen Casper 补充道:“它提供了一些迄今为止最有力的证据,表明很难像人们希望的那样可靠地实现先进模型。”

六月分析 作为预印本在线出版 1并且尚未经过同行评审,使用所谓的对抗性攻击——人工智能系统输入 旨在导致系统出错 ,无论是出于研究目的还是出于恶意目的。例如,某些输入可以通过发出通常应该抑制的恶意信息来“越狱”聊天机器人。

在围棋中,两名棋手轮流将黑白棋子放在网格上,以包围并困住对方的棋子。 2022 年,研究人员报告称 训练对抗性人工智能机器人击败 KataGo 2,最好的开源围棋人工智能系统,通常可以轻松地(并且不费力地)击败最好的人类。他们的机器人发现了经常击败 KataGo 的漏洞,尽管这些机器人在其他方面并不是很好——人类业余爱好者可以击败它们。此外,人类能​​够理解并使用机器人的技巧来击败 KataGo。

KataGo 的利用

这是一次性的,还是这项工作指出了 KataGo 的根本弱点 - 以及其他具有看似超人能力的人工智能系统?为了调查这一问题,FAR AI 执行董事、2022 年论文的合著者、加州伯克利非营利研究组织 FAR AI 的执行董事 Adam Gleave 领导的研究人员正在使用人工智能 2,对抗性机器人测试三种保护围棋人工智能免受此类攻击的方法 1

第一种防御措施是 KataGo 开发人员在 2022 年攻击后已经使用的防御措施:为 KataGo 提供攻击中涉及的游戏情况示例,并让它发挥作用以学习如何应对这些情况。这与通常教授围棋的方式类似。然而,最新论文的作者发现,对抗性机器人甚至学会了击败 KataGo 的更新版本,并在 91% 的情况下获胜。

Gleave 团队尝试的第二种防御策略是迭代的:训练 KataGo 版本来对抗对抗性机器人,然后训练攻击者对抗更新后的 KataGo,依此类推,持续九轮。但即便如此,KataGo 的无敌版本也没有诞生。攻击者继续寻找漏洞,最新的攻击击败 KataGo 的成功率为 81%。

作为第三种防御策略,研究人员从头开始训练了一个新的围棋人工智能系统。 KataGo 基于称为卷积神经网络 (CNN) 的计算模型。研究人员怀疑 CNN 可能过于关注局部细节而忽略全局模式。所以他们建立了一个具有替代方案的围棋播放器 神经网络 称为视觉变换器(ViT)。但他们的对抗机器人发现了一种新的攻击,帮助它在 78% 的情况下战胜了 ViT 系统。

对手较弱

在所有这些情况下,对抗性机器人虽然能够击败 KataGo 和其他领先的围棋系统,但都被训练来发现其他人工智能中隐藏的漏洞,而不是成为全面的战略家。 “对手仍然很弱——我们很轻松地击败了他们,”格利夫说。

既然人类能够使用对抗性机器人的策略来击败领先的围棋人工智能,那么称这些系统为超人类还有意义吗? “这是一个很好的问题,也是我一直在努力解决的问题,”格利夫说。 “我们开始说,‘典型的超人’。”首先开发 KataGo 的纽约计算机科学家 David Wu 表示,强大的围棋人工智能“平均而言是超人”,但“在最坏的情况下”却并非如此。

Gleave 表示,这些发现可能对人工智能系统产生深远的影响,包括 ChatGPT 等聊天机器人背后的大型语言模型 。 “人工智能的关键要点是这些漏洞将很难解决,”格利夫说。 “如果我们不能在像 Go 这样的简单领域解决问题,那么在不久的将来解决 ChatGPT 中越狱等类似问题的可能性似乎很小。”

张说,这些结果对于创造全面超越人类能力的人工智能的可能性意味着什么尚不清楚。他说:“虽然从表面上看,这表明人类可能会在一段时间内保持相对于人工智能的重要认知优势,但我认为关键的见解是 我们还没有完全理解我们今天正在构建的人工智能系统 ”。