您的论文是用来训练AI模型的吗?最有可能的

您的论文是用来训练AI模型的吗?最有可能的
科学出版商向技术公司出售对研究工作的访问权限,以培训人工智能(AI)模型。一些研究人员对在没有作者咨询的情况下进行的此类交易感到沮丧。这种趋势提出了有关使用已发表的,有时甚至是受版权保护的工作来培训越来越多的AI聊天机器人的问题。
专家说,尚未用于训练大型语音模型的研究论文可能很快就会使用。研究人员探索了作者确定是否使用其内容的技术机会。
上个月宣布,总部位于英国米尔顿公园的英国科学出版商泰勒和弗朗西斯与微软签署了一千万美元的交易,这使美国技术公司能够访问发布者的数据以改善其AI系统。 6月,投资者的更新显示,美国出版商Wiley通过培训生成AI模型的内容赚了2300万美元。西雅图华盛顿大学的AI研究员露西·卢·王(Lucy Lu Wang)说,无论是在开放访问存储库中,无论是在开放访问存储库中还是没有被“完全”融入了大型语音模型中。她补充说:“而且,如果已经将论文用作模型中的培训数据,那么训练模型后就无法删除本文。”
大量数据记录
llms经过大量数据培训,这些数据通常会从互联网上浏览。他们确定了训练数据中通常数十亿个语音部分的模式,因此可以称为令牌,从而使它们能够用惊人的液体生成文本。
生成的AI模型依靠从这些数据质量中获取模式来输出文本,图像或计算机代码。斯特凡·巴克(Stefan Baack)说,科学工作对于LLM开发人员的长度和“高信息密度”而言是有价值的,他在加利福尼亚州旧金山的Mozilla基金会进行了AI培训数据集的分析。
购买高质量数据记录的趋势会增长。今年的《金融时报》 ChatGpt-Developer OpenAi 在有利可图的交易中提供,以及向Google的在线论坛Reddit。王说,由于科学出版商可能将替代方案视为未经授权的撇渣器,因此“我认为更多这样的交易是即将出现的。”
信息的秘密
Baack说,一些AI开发人员(例如大型人工智能网络)故意保持其数据记录开放,但是许多开发生成AI模型的公司都保留了很大一部分培训数据秘密。他说:“我们不知道这是什么。”诸如ARXIV和科学数据库PubMed之类的开源存储库被认为是“非常受欢迎的”来源,尽管Paywalled期刊文章可能会免费由大型技术公司免费浏览。他补充说:“您一直在寻找此类信息。”
伦敦帝国学院的计算机科学家Yves-Alexandre de Montjoye说,很难证明法学硕士使用了一份论文。一种可能性是用文本中的不寻常的句子面对模型,并检查输出是否匹配原始单词。如果是这种情况,这是一个好兆头,表明该论文包含在培训集中。如果不是这样,这并不意味着尚未使用该论文 - 尤其是因为开发人员可以对LLM进行编程以过滤答案以确保它们与培训数据不太匹配。他说:“使它起作用需要很多。”
检查数据是否包含在培训数据集中的另一个过程称为会员推理攻击。这是基于这样的想法:一个模型对其版本充满信心,当时它看到了以前看到的东西。 De Montjoyes Team已开发了一个名为LLM的版权陷阱的版本。
为了放置陷阱,团队会生成合理但荒谬的句子并隐藏在作品中,例如作为白色背景上的白色文本或在网站上显示为零宽度的字段。他说,如果未使用的控制集对LLM感到“惊讶”,这比文本中隐藏的句子还要多,“事先看到陷阱的统计证据”。
版权问题
即使有可能证明在特定文本上对LLM进行了培训,但尚不清楚接下来会发生什么。出版商声称,在没有许可的情况下使用受版权保护的文本被认为是伤害。但是法律反驳说,LLMS不复制 - 您可以从被压碎的培训数据中提取信息内容,并利用您学习的知识来生成新文本。
可能有法律程序可以帮助澄清这一点。在一项正在进行的美国咨询法中,可能是开创性的,《纽约时报》微软和加利福尼亚州旧金山的Openai的Chatgpt的开发商。报纸指责公司未经许可使用其新闻内容来培训其模型。
许多学者将其工作包括在LLMS培训数据中时很高兴 - 尤其是在模型变得更加精确的情况下。巴克说:“就我个人而言,我不介意聊天机器人是否以我的风格写作。”但是他承认,他的职业不受LLM的支出的威胁,例如其他专业,例如艺术家和作家。
如果您的论文的发行人出售您对受版权保护的作品的访问权,那么目前的个人科学作者目前没有影响力。公开可用的文章没有建立的手段来分配信用或知道是否已使用文本。
一些研究人员,包括德蒙乔伊(De Montjoye),感到沮丧。他说:“我们想要LLM,但我们仍然想要公平的东西,我认为我们还没有发明它的外观。”