人工智能模型是否比研究人员产生更多原创想法?

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

一项新研究表明,AI 模型可以产生比 50 名科学家更多的原创研究想法。专家对这些方法进行了评估。

Eine neue Studie zeigt, dass KI-Modelle mehr originelle Forschungsideen generieren können als 50 Wissenschaftler. Experten bewerten diese Ansätze.
一项新研究表明,AI 模型可以产生比 50 名科学家更多的原创研究想法。专家对这些方法进行了评估。

人工智能模型是否比研究人员产生更多原创想法?

在 arXiv 上最近的预印本中,由人工智能 (AI) 驱动的创意生成系统已开发出比 50 名独立工作的科学家更多的原创研究方法 1

人类和人工智能产生的想法由评审者进行评估,但他们不知道每个想法是谁或是什么创造的。评审员认为,与人类创作的想法相比,人工智能生成的概念更令人兴奋,尽管人工智能的建议在可行性方面得分略低。

然而,科学家们指出,这项尚未经过同行评审的研究存在局限性。它专注于特定的研究领域,并要求人类参与者自发地产生想法,这可能会阻碍他们产生最佳概念的能力。

科学领域的人工智能

不断上升的愿望 ,研究如何使用大型语言模型 (LLM) 来自动化研究任务,例如 写文章, 生成代码文献研究 可以使用。然而,很难评估这些人工智能工具是否能够产生与人类水平相似的新研究方法。这是因为对想法的评价 非常主观 该研究的合著者、加州斯坦福大学的计算机科学家 Chenglei Si 表示,并且需要能够仔细评估它们的专家。 “将这些功能置于情境中的最佳方法是进行并排比较,”Si 说。

这个为期一年的项目是评估大型语言模型(例如工具背后的技术)是否有效的最大努力之一 聊天GPT – 可以产生创新的研究方法,耶路撒冷艾伦人工智能研究所的计算机科学家汤姆·霍普解释道。 “需要有更多这样的工作,”他说。

该团队招募了 100 多名自然语言处理领域的研究人员,自然语言处理是计算机科学的一个分支,处理人工智能与人类之间的通信。四十九名参与者的任务是在十天内根据七个主题之一开发和制定想法。作为奖励,研究人员每个想法可获得 300 美元,前 5 个想法可获得 1,000 美元的奖金。

与此同时,研究人员使用加州旧金山 Anthropic 开发的法学硕士 Claude 3.5 开发了一个想法生成器。研究人员要求他们的人工智能工具通过语义学者(一种人工智能驱动的文献搜索引擎)查找与七个研究主题相关的文章。根据这些文章,研究人员要求他们的 AI 代理针对每个研究主题生成 4,000 个想法,并评估最原始的想法。

人类评估员

然后,研究人员将人类和人工智能生成的想法随机分配给 79 名评审员,他们对每个想法的新颖性、兴奋性、可行性和预期有效性进行评分。为了确保审稿人不知道这些想法的创造者,研究人员使用了另一位法学硕士来编辑两种类型的文本,以便在不改变想法本身的情况下使写作风格和语气标准化。

平均而言,评审者认为人工智能生成的想法比人类参与者撰写的想法更具原创性和令人兴奋。然而,当他们更仔细地观察 LLM 产生的 4000 个想法时,研究人员发现只有大约 200 个是真正独特的,这表明人工智能产生的想法越多,原创性就越低。

当Si对参与者进行调查时,大多数人承认,与过去产生的想法相比,他们提交的想法只是平均水平。

加拿大温哥华不列颠哥伦比亚大学机器学习研究员 Cong Lu 表示,结果表明法学硕士可能比现有文献更容易产生更多原创想法。然而,它们是否能够超越人类最具突破性的想法仍然是一个悬而未决的问题。

西雅图华盛顿大学社会科学计算机科学家杰文·韦斯特 (Jevin West) 表示,这项研究的另一个局限性是,所比较的书面想法是由法学硕士编辑的,这改变了提交材料的语言和长度。他补充说,这些变化可能微妙地影响了评论者对新颖性的看法。韦斯特补充说,让研究人员与可以在几个小时内产生数千个想法的法学硕士进行比较可能并不完全公平。 “你必须将苹果与苹果进行比较,”他说。

Si 和他的同事计划将人工智能产生的想法与领先的会议论文进行比较,以更好地了解法学硕士与人类创造力的比较。 “我们试图鼓励社区更深入地思考当人工智能可以在研究过程中发挥更积极的作用时,未来会是什么样子,”他说。

  1. Si, C.、Yang, D. 和 Hashimoto, T. arXiv 预印本 https://doi.org/10.48550/arXiv.2409.04109 (2024)。

下载参考资料

Quellen: