最新的Chatgpt模型O1给科学家留下了深刻的印象

Wissenschaftler loben das neue ChatGPT-Modell o1 von OpenAI für seine beeindruckenden Fortschritte in der Wissenschaftsunterstützung.
科学家称赞Openai的新Chatgpt Model O1在科学支持方面令人印象深刻。 (Symbolbild/natur.wiki)

最新的Chatgpt模型O1给科学家留下了深刻的印象

帮助测试OpenAi O1 Openai O1的新大型语言模型的研究人员说,这是使用聊天机器人代表chatbots 代表。

“在我的量子物理学领域,比以前的模型GPT-4O更详细,更连贯的答案。克伦(Krenn)属于“红色团队”中的一组科学家,他们通过尝试机器人并检查机器人的安全问题,从OPAI上测试了O1的预先使用O1(Openai)。

以来大量标准化测试中的技能

Openaai解释说

超过博士生

安德鲁·怀特(Andrew White), GPT-4 公共出版物,他对Chatbots对科学任务的支持总体上不缺乏改进

Remarkable is O1 The first major language model that doctoral students in the most difficult question-the ‘Diamond’-Set-called Graduate-Level Google-Proof Q & A Benchmark (GPQA) beats 1 . Openai指出,他的研究人员在GPQA钻石中取得了近70%的速度,而O1总计达到78%,物理学的结果尤其高93%(请参阅“下一水平”)。开发GPQA团队的一员戴维·赖恩(David Rein)说,这“大大高于下一个最佳记录的表现”。目前,非营利组织模型评估和威胁研究正在加利福尼亚州伯克利工作,该研究涉及对AI风险的评估。他补充说:“对我来说,这似乎是该模型核心技能的重大和根本改进的合理。”

OpenAAI在国际数学奥林匹克运动会的资格测试中还测试了O1。以前的最佳模型GPT-4O仅正确地解决了13%的任务,而O1实现了83%。

在过程中思考

OpenAI O1可以采用一系列纪念步骤:它通过许多考虑来解决问题并纠正自身。

OpenAai决定保留给定思路链的细节 - 部分是因为该链可能包含错误或社交上不可接受的“思想”,部分是为了保护模型如何工作的公司秘密。相反,O1以及他的答案为用户提供了重建的逻辑摘要。怀特认为,尚不清楚整个思想链是否被揭示,是否会与人类思维有相似之处。

新技能也具有黑暗的一面。 Openai报告说,它已经收到了轶事反馈,O1模型“幻觉”更常见的错误答案(尽管O1的内部测试显示出较低的幻觉率)。

红色团队的科学家发现了多种选择O1有助于开发科学实验的协议,但OpenAAI说,测试人员还显示“缺乏有关有害步骤的安全信息,例如爆炸危险或建议不足的化学安全方法不足,这表明模型不足,因为它不适合安全地进行安全任务。

“它仍然不够完美或不够可靠,不必准确检查。”他补充说,O1更适合。他说:“对于初学者来说,观察O1产生的协议并认识到它是“胡说八道”的立即能力,”他说。

科学问题解决者

krenn认为,O1将通过帮助扫描文献,认识到差距并提出有趣的研究方法来加速科学。他将O1集成到了他开发的工具中,并使其能够称为Scimuse 2 。他说:“它比GPT-4或GPT-4O产生了更多有趣的想法。”

凯尔·卡巴萨雷斯(Kyle Kabasares),加利福尼亚州莫菲特菲尔德湾地区环境研究所的数据科学家,使用O1来复制其博士学位项目的一些编程步骤,该项目计算了黑洞的质量。他说:“我只是不知所措。”他注意到O1需要大约一个小时才能实现他几个月的成本。

马萨诸塞州波士顿儿童医院的遗传学家凯瑟琳·布朗斯坦(Catherine Brownstein)表示,该医院目前正在测试包括O1预览在内的多个AI系统,例如在诸如揭示患者特征和稀有疾病基因之间的关系之类的应用。她说,O1“更精确,提供了我认为从聊天机器人不可能的选择”。

  1. Rein,D。等。 Arxiv (2023)。

  2. gu,X。&krenn,M。preprint at arxiv https://doi.org/10.48550/arxiv.2405.170444 (2024)。

  3. 下载参考