OpenAI 遭实锤:研究称其 AI 模型“记住”了受版权保护的内容
作者:方泰攻略站时间:2025-04-06 12:45:02
本站 4 月 6 日消息,一项新研究似乎为 OpenAI 至少使用部分受版权保护内容来训练其人工智能模型的指控提供了依据。
本站注意到,OpenAI 正面临由作家、程序员以及其他版权持有者提起的诉讼,这些原告指责该公司在未经许可的情况下,使用他们的作品 —— 包括书籍、代码库等,来开发其模型。尽管 OpenAI 一直声称其享有合理使用的抗辩理由,但原告方则认为美国版权法中并无针对训练数据的豁免条款。
该研究由华盛顿大学、哥本哈根大学和斯坦福大学的研究人员共同撰写,提出了一种新方法,用于识别像 OpenAI 这样通过应用程序接口(API)提供服务的模型所“记忆”的训练数据。
AI 模型本质上是预测引擎,通过大量数据训练,它们能够学习各种模式,从而生成文章、照片等。虽然大多数输出并非训练数据的逐字复制,但由于模型的“学习”方式,部分内容不可避免地会被模型记忆下来。此前已有研究发现,图像模型会重复生成其训练数据中电影的截图,而语言模型则被观察到存在剽窃新闻文章的行为。
该研究的核心方法依赖于研究人员提出的“高意外性”词汇,即在大量作品中显得不常见的词汇。例如,在句子“Jack and I sat perfectly still with the radar humming”中,“radar”(雷达)一词被认为是高意外性的,因为从统计学角度来看,它出现在“humming”(嗡嗡作响)之前的可能性比“engine”(引擎)或“radio”(收音机)等词要低。
共同作者对包括 GPT-4 和 GPT-3.5 在内的几种 OpenAI 模型进行了测试,通过从虚构小说片段和《纽约时报》文章中移除高意外性词汇,然后让模型尝试“猜测”被屏蔽的词汇,来寻找记忆迹象。研究人员认为,如果模型能够成功猜出这些词语,则很可能表明该模型在训练过程中记忆了这些片段。
根据测试结果,GPT-4 显示出记住了流行小说书籍的部分内容,包括一个包含受版权保护电子书样本的数据集 BookMIA 中的书籍。结果还表明,该模型记住了《纽约时报》文章的部分内容,尽管比例相对较低。
华盛顿大学的博士生、该研究的共同作者阿比拉沙・拉维奇汉德(Abhilasha Ravichander)对 TechCrunch 表示,这些发现揭示了模型可能接受训练的“有争议的数据”。
长期以来,OpenAI 一直倡导放宽对使用受版权保护数据开发模型的限制。尽管该公司已经达成了一些内容许可协议,并提供了允许版权所有者标记不希望其用于训练的内容的退出机制,但该公司一直在游说多个**将围绕人工智能训练方法的“合理使用”规则编入法典。
相关文章
-
刺香出装教程攻略大全(让你在游戏中成为无敌的存在!)
刺香是一款热门的手机游戏,其中的出装是玩家们提升自己战斗力的重要手段。本篇文章将为大家提供详细的刺香出装教程攻略大全,帮助玩家们在游戏中成为无敌的存在!一、突破极限之路——出装基础通过了解角色属性和技
-
WinRAR 旧版本存安全漏洞,可绕过 Windows 安全警告执行恶意软件
本站 4 月 7 日消息,WinRAR 作为电脑用户中广受欢迎的压缩软件,数十年来一直为用户提供便捷的数据压缩服务,方便用户将文件压缩成更小的体积以便于传输。然而,除最新版外的所有 WinRAR 版本
-
1.神秘护甲:提升无极抗性,成为不可撼动的战士之神
无极作为一款热门游戏中的强力英雄,拥有出色的技能和属性,成为许多玩家心目中的霸主。本文将为大家带来最新的无极出装铭文攻略,助您在游戏中取得更好的战绩!1 神秘护甲:提升无极抗性,成为不可撼动的战士之神
-
Meta 新旗舰 AI 模型 Llama 4 Maverick 测试成绩遭质疑,被指针对性优化
本站 4 月 7 日消息,Meta 公司上周发布了一款名为 Maverick 的新旗舰 AI 模型,并在 LM Arena 测试中取得了第二名的成绩。然而,这一成绩的含金量却引发了诸多质疑。据多位 A
-
李白在幻想领域的技能搭配攻略(掌握李白技能搭配,成就无敌之主)
在幻想领域这款游戏中,李白是一位非常强力的角色,他拥有多种技能可以让他在战斗中展现出无与伦比的强大力量。本文将为大家介绍李白在幻想领域的技能搭配攻略,帮助玩家更好地掌握李白,成为无敌之主。一:技能搭配
-
英伟达工程师修改 Linux 内核致 AMD GPU 性能下降,后又将其修复
本站 4 月 7 日消息,一名英伟达工程师近日在 Linux 内核中提交了一个修复补丁,解决了 AMD 集成和独立 GPU 硬件上出现的性能倒退问题。然而令人意外的是,这位工程师正是最初引入这一问题的