人工智能生成的图像危及科学——这就是研究人员想要识别它们的方式

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

研究人员正在与科学出版物中人工智能生成的虚假图像作斗争。新的检测方法正在开发中。

Forschende kämpfen gegen AI-generierte Fake-Bilder in wissenschaftlichen Publikationen. Neue Methoden zur Aufdeckung entwickeln sich.
研究人员正在与科学出版物中人工智能生成的虚假图像作斗争。新的检测方法正在开发中。

人工智能生成的图像危及科学——这就是研究人员想要识别它们的方式

科学家操纵数字并大量生产假论文 强制出版商 – 有问题的手稿长期以来一直是科学文献中的一大麻烦。 科学侦探孜孜不倦地工作 ,揭露这种错误行为并纠正科学记录。但随着欺诈者新的、强大的工具的出现,他们的工作变得越来越困难:生成 人工智能 (人工智能)。

“生成式人工智能发展非常迅速,”说 贾娜·克里斯托弗 ,德国海德堡 FEBS Press 的图像完整性分析师。 “在我的领域工作的人们——形象完整性和出版政策——越来越关注它所带来的可能性。”

轻松地 生成人工智能工具文本 、图像和数据引发了人们对科学文献日益不可靠的担忧,其中充斥着人类难以察觉的虚假数字、手稿和结论。随着诚信专家、出版商和技术公司的努力,一场军备竞赛已经开始 开发人工智能工具 ,这可以帮助快速识别专业文章中人工智能生成的欺骗性元素。

“这是一个可怕的发展,”克里斯托弗说。 “但也有聪明的人,并提出了良好的结构性变革。”

研究诚信专家报告说,尽管许多期刊在某些情况下已经允许人工智能生成的文本,但使用此类工具创建图像或其他数据可能被认为不太可接受。 “在不久的将来,我们可能会接受人工智能生成的文本,”说 伊丽莎白·比克 ,加利福尼亚州旧金山的图像取证专家和顾问。 “但在生成数据方面我划清了界限。”

Bik、Christopher 和其他人认为,用生成式 AI 创建的数据(包括图像)已经在文学中广泛使用,并且强制出版商正在使用 AI 工具批量制作手稿(参见“测验:你能发现 AI 伪造品吗?”)。

识别人工智能生成的图像面临着巨大的挑战:通常几乎不可能用肉眼将它们与真实图像区分开来。 “我们感觉我们每天都会遇到人工智能生成的图像,”克里斯托弗说。 “但除非你能证明这一点,否则你真的无能为力。”

有一些在科学图像中使用生成式人工智能的明显例子,例如 现在臭名昭著的老鼠生殖器大得离谱的形象 以及使用 Midjourney 图像工具创建的无意义标签。这张图片由一家商业杂志二月份发布,在社交媒体上引起了一场风暴,并被 几天后撤回

然而,大多数情况并不那么明显。在生成人工智能出现之前,使用 Adob​​e Photoshop 或类似工具创建的图形(尤其是在分子和细胞生物学领域)通常包含侦探可以识别的显着特征,例如相同的背景或异常缺乏条纹或斑点。人工智能生成的角色通常不会表现出这样的特征。 “我看到很多论文让我认为这些蛋白质印迹看起来并不真实 - 但没有确凿的证据,”Bik 说。 “你只能说它们看起来很奇怪,当然这还不足以联系编辑。”

然而,有迹象表明人工智能生成的角色正在出现在已发表的手稿中。使用 ChatGPT 等工具编写的文本在文章中不断增加,作者忘记删除的典型聊天机器人短语和人工智能模型倾向于使用的独特单词就证明了这一点。 “所以我们必须假设数据和图像也会发生这种情况,”比克说。

欺诈者使用复杂成像工具的另一个迹象是,调查人员目前发现的大多数问题都出现在几年前的作品中。 “近年来,我们发现图像问题越来越少,”比克说。 “我认为大多数被发现操纵图像的人开始创建更清晰的图像。”

使用生成式人工智能创建干净的图像并不困难。 Kevin Patrick 是一位在社交媒体上被称为 Cheshire 的科学图像侦探,他展示了这是多么容易,并在 X 上发表了他的发现。Patrick 使用 Photoshop 的 AI 工具 Generative Fill 创建了肿瘤、细胞培养、蛋白质印迹等的逼真图像(可能出现在科学论文中)。大多数图像的创建时间不到一分钟(请参阅“生成虚假科学”)。

“如果我能做到这一点,那么那些受雇创建虚假数据的人肯定也会这么做,”帕特里克说。 “使用这样的工具可能可以生成大量其他数据。”

一些出版商报告在已发表的研究中发现了人工智能生成内容的证据。加利福尼亚州旧金山公共图书馆出版道德团队的编辑 Renée Hoch 表示,公共图书馆已经收到了可疑内容的警报,并通过内部调查在文章和提交的材料中发现了人工智能生成的文本和数据的证据。 (Hoch 指出,PLoS 期刊并不禁止使用 AI,并且 AI 政策基于作者责任和透明披露。)

其他工具也可以为想要创建虚假内容的人提供机会。上个月研究人员发表了 1 生成式人工智能模型来创建高分辨率显微镜图像——一些诚信专家对这项工作表示了担忧。 Bik 说:“这项技术很容易被恶意利用,快速创建数百或数千张虚假图像。”

该工具的创建者、海法以色列理工学院的 Yoav Shechtman 表示,该工具对于为模型创建训练数据非常有用,因为很难获得高分辨率显微镜图像。但他补充说,它对于生成假货没有用,因为用户对结果几乎没有控制权。他建议,现有的图像编辑软件(例如 Photoshop)对于处理图形更有用。

虽然人眼可能看不到 识别人工智能生成的图像 ,人工智能可能会做到这一点(参见“人工智能图像难以识别”)。

Imagetwin 和 Proofig 等工具的开发人员正在扩展他们的软件,以过滤由生成式人工智能创建的图像,这些工具使用人工智能来检测科学图像中的完整性问题。由于此类图像很难识别,两家公司都在创建自己的生成人工智能图像数据库来训练他们的算法。

Proofig 已经在其工具中发布了一项功能,用于识别人工智能生成的显微镜图像。以色列雷霍沃特的联合创始人 Dror Kolodkin-Gal 表示,在对数千张 AI 生成的文章图像和真实图像进行测试时,该算法正确识别 AI 图像的正确率达到 98%,误报率为 0.02%。德罗尔补充说,该团队现在正在尝试了解他们的算法到底检测到了什么。

“我对这些工具寄予厚望,”克里斯托弗说。然而,她指出,他们的结果必须始终由能够验证他们指出的问题的专家进行评估。 Christopher 目前还没有看到任何证据表明 AI 图像识别软件是可靠的(Proofig 的内部评估尚未发表)。她补充道,这些工具“虽然有限,但对于我们扩大提交审核工作来说确实非常有用”。

许多出版商和研究机构已经在使用它 证明图像孪生 。例如,科学期刊使用 Proofig 来检查图像中的完整性问题。华盛顿特区 Science 通讯总监 Meagan Phelan 表示,该工具尚未发现任何人工智能生成的图像。

《自然》杂志的出版商 Springer Nature 正在开发自己的文本和图像检测工具,称为 Geppetto 和 SnapShot,它们可以标记不规则之处,然后由人类进行评估。 (《自然》新闻团队在编辑上独立于其出版商。)

出版集团也在采取措施应对人工智能生成的图像。英国牛津国际科学、技术和医学出版商协会 (STM) 的一位发言人表示,该协会正在“非常严肃地”对待这个问题,并正在响应以下倡议: 联合行动 STM 诚信中心,解决当前的强制出版问题和其他学术诚信问题。

负责图像更改和复制的 STM 工作组负责人 Christopher 表示,人们越来越认识到有必要开发验证原始数据的方法,例如,通过在显微镜拍摄的图像上添加类似于所使用的不可见水印的标签 AI 生成文本中的水印 – 这可能是正确的方法。她补充道,这需要设备制造商采用新技术和新标准。

帕特里克和其他人担心出版商没有足够快地采取行动来应对这一威胁。 “我们担心这将成为文献中的又一代问题,直到为时已晚,他们才解决这些问题,”他说。

尽管如此,一些人仍然乐观地认为,今天出现在文章中的人工智能生成的内容将来会被发现。

帕特里克说:“我完全相信,这项技术将改进到能够识别当前创建的数据的程度,因为在某些时候,这将被认为是相对粗糙的。” “欺诈者晚上不应该睡好觉。他们可以欺骗当前的流程,但我不认为他们可以永远欺骗流程。”

  1. 萨吉,A.等人。小冰毒。 https://doi.org/10.1002/smtd.202400672(2024)。

    文章  

    谷歌学术
     

下载参考资料