科学家对最新的 ChatGPT 模型 o1 印象深刻

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

科学家们称赞 OpenAI 的新 ChatGPT 模型 o1 在科学支持方面取得了令人印象深刻的进步。

Wissenschaftler loben das neue ChatGPT-Modell o1 von OpenAI für seine beeindruckenden Fortschritte in der Wissenschaftsunterstützung.
科学家们称赞 OpenAI 的新 ChatGPT 模型 o1 在科学支持方面取得了令人印象深刻的进步。

科学家对最新的 ChatGPT 模型 o1 印象深刻

帮助测试 OpenAI 的新大型语言模型 OpenAI o1 的研究人员表示,这在以下方面向前迈出了一大步: 聊天机器人对科学的用处 代表。

德国埃尔兰根马克斯·普朗克光物理研究所人工智能科学家实验室负责人马里奥·克伦 (Mario Krenn) 表示,“在我的量子物理学领域,与之前的模型 GPT-4o 相比,有明显更详细、更连贯的答案”。 Krenn 是“红队”科学家小组的一员,他们为 OpenAI(一家位于加利福尼亚州旧金山的科技公司)测试了 o1 的预发布版本,对机器人进行了测试并检查是否存在安全问题。

自从 ChatGPT 将于 2022 年公开发布 平均而言,为此类聊天机器人提供支持的大型语言模型已经变得更大更好,具有更多参数、更大的训练数据集和 在各种标准化测试中拥有更强的技能

OpenAI 解释说 o1系列 代表着公司方法的根本性改变。观察家报告说,这种人工智能模型之所以脱颖而出,是因为它在某些学习阶段花费了更多时间,并且“思考”答案的时间更长,使其速度更慢,但能力更强——尤其是在明确定义正确和错误答案的领域。该公司补充说,o1 可以“思考复杂的任务,解决比以前的科学、编程和数学模型更困难的问题。”目前,o1-preview 和 o1-mini(更小、更具成本效益的适合编程的版本)可供付费客户和某些开发人员进行测试。该公司尚未公布任何有关 o1 型号的参数或计算能力的信息。

表现优于研究生

安德鲁·怀特,一个 化学家 旧金山一家专注于如何将人工智能应用于分子生物学的非营利组织 FutureHouse 表示,在过去一年半的时间里,观察家们 自 GPT-4 公开发布以来 ,对聊天机器人支持科学任务的方式普遍缺乏改进感到惊讶和失望。他相信,o1 系列改变了这一点。

值得注意的是,o1 是第一个在最困难的问题(“钻石”集)上击败研究生的主要语言模型,该模型是在一项名为“研究生级 Google 验证问答基准”(GPQA) 的测试中击败研究生的。 1 。 OpenAI 表示,其研究人员在 GPQA 钻石测试中的得分略低于 70%,而 o1 的总体得分为 78%,其中物理得分特别高,达到 93%(请参阅“下一级别”)。 GPQA 开发团队成员 David Rein 表示,这“明显高于记录第二好的[聊天机器人]性能”。 Rein 目前在加利福尼亚州伯克利的非营利性模型评估和威胁研究机构工作,该机构负责评估人工智能的风险。 “在我看来,这似乎是该模型核心功能的重大且根本性的改进,”他补充道。

OpenAI 还在国际数学奥林匹克资格考试中测试了 o1。之前最好的模型 GPT-4o 仅正确解决了 13% 的任务,而 o1 的得分为 83%。

过程中的思考

OpenAI o1 采用一系列思维步骤:它在尝试解决问题时通过一系列考虑因素进行自我对话,并在问题进行时进行自我纠正。

OpenAI 选择对给定思维步骤链的细节保密——部分原因是该链可能包含错误或社会上不可接受的“想法”,部分原因是为了保护有关模型工作原理的企业机密。相反,o1 为用户提供了其逻辑的重构摘要及其答案。怀特说,目前还不清楚,如果揭示出完整的思维步骤序列是否与人类思维有任何相似之处。

新能力也有其缺点。 OpenAI 报告称,它收到的传闻反馈称,o1 模型比其前辈更频繁地“产生幻觉”(发明错误答案)(尽管该公司对 o1 的内部测试显示幻觉率略低)。

红队科学家指出,o1 在制定科学实验协议方面有很多帮助,但 OpenAI 表示,测试人员还“强调缺乏有关有害步骤的安全信息,例如没有强调爆炸危险或建议不适当的化学安全方法,这表明该模型在涉及安全关键任务时存在不足。”

“它仍然不够完美或不够可靠,不需要审查,”怀特说。他补充说,o1 更适合 作为初学者的领先专家 。 “对于初学者来说,查看 o1 生成的日志并意识到它是‘无稽之谈’,这超出了他们的直接能力,”他说。

科学问题解决者

Krenn 相信,o1 将通过帮助浏览文献、找出差距并为未来的研究提出有趣的研究途径来加速科学发展。他将 o1 集成到他帮助开发的一个名为 SciMuse 的工具中,使这一切成为可能 2 。 “它产生了比 GPT-4 或 GPT-4o 更有趣的想法,”他说。

凯尔·卡巴萨雷斯 (Kyle Kabasares) 是加利福尼亚州莫菲特菲尔德湾区环境研究所的数据科学家, 使用o1进行一些编程步骤 来自他计算黑洞质量的博士项目。 “我简直被震撼了,”他说,并指出他花了大约一个小时才完成了他花了好几个月的时间。

马萨诸塞州波士顿儿童医院的遗传学家 Catherine Brownstein 表示,该医院目前正在测试多个人工智能系统,包括 o1-preview,用于揭示患者特征与罕见疾病基因之间的联系等应用。她说 o1“更准确,并且提供了我认为聊天机器人不可能提供的选项。”

  1. 赖因,D.等人。 arXiv 预印本 https://doi.org/10.48550/arXiv.2311.12022 (2023)。

  2. Gu, X. 和 Krenn, M. arXiv 的预印本 https://doi.org/10.48550/arXiv.2405.17044 (2024)。

下载参考资料