研究称 OpenAI 使用受版权保护的数据来训练 AI 模型

研究称 OpenAI 使用受版权保护的数据来训练 AI 模型

研究称 OpenAI 使用受版权保护的数据来训练 AI 模型

人工智能披露项目的一项新研究对OpenAI用于训练其大型语言模型LLM)的数据提出了质疑。研究表明,OpenAI的GPT-4o模型对O’Reilly Media图书的付费墙和版权数据表现出了“强大的识别能力”。

由技术专家蒂姆·奥莱利(Tim O’Reilly)和经济学家伊兰·施特劳斯(Ilan Strauss)领导的“人工智能信息披露项目”(AI Disclosures Project)旨在通过倡导提高企业和技术透明度来应对人工智能商业化可能带来的有害社会影响。该项目的工作报告强调了人工智能信息披露的缺失,并将其与财务披露标准及其在促进证券市场稳健发展方面的作用进行了类比。

该研究使用了合法获取的34本受版权保护的O’Reilly Media书籍数据集,以调查OpenAI的LLM模型是否在未经同意的情况下使用受版权保护的数据进行训练。研究人员应用了DE-COP成员推理攻击方法,以确定模型是否能够区分人工编写的O’Reilly文本和释义的LLM版本。

报告的主要发现包括:

GPT-4o 对付费 O’Reilly 图书内容表现出“高度识别”,AUROC 得分为 82%。相比之下,OpenAI 的早期模型 GPT-3.5 Turbo 的识别率略高于 50%。
与可公开访问的样本相比,GPT-4o 对非公开的 O’Reilly 图书内容表现出更强的识别度(AUROC 得分分别为 82% 和 64%)
GPT-3.5 Turbo 对可公开访问的 O’Reilly 图书样本的相对认可度高于非公开的书籍样本(AUROC 得分分别为 64% 和 54%)
GPT-4o Mini 是一款较小的型号,在测试中显示它对公开或非公开的 O’Reilly Media 内容一无所知(AUROC 约为 50%)
研究人员认为,访问违规可能是通过LibGen数据库发生的,因为所有测试的 O’Reilly 书籍都来自该数据库。他们还承认,较新的法学硕士 (LLM) 区分人工编写和机器生成语言的能力有所提升,但这并不会降低该方法的数据分类能力。

该研究强调了由于语言随时间变化而导致的结果中可能存在“时间偏差”。为了解释这一点,研究人员测试了两个基于同一时期数据训练的模型(GPT-4o 和 GPT-4o Mini)。

报告指出,虽然这些证据仅针对 OpenAI 和 O’Reilly Media 的书籍,但它很可能反映了版权数据使用方面的系统性问题。报告认为,无偿使用训练数据可能会导致互联网内容质量和多样性下降,因为专业内容创作的收入来源会减少。

人工智能披露项目强调,人工智能公司模型预训练流程需要加强问责制。他们建议,制定激励企业提高数据来源披露透明度的责任条款,可能是促进训练数据许可和报酬商业化市场的重要一步。

如果《欧盟人工智能法案》的披露要求得到妥善规范和执行,将有助于引发积极的披露标准循环。确保知识产权持有者知晓其成果何时被用于模型训练,被视为建立内容创作者数据人工智能市场的关键一步。

尽管有证据表明人工智能公司可能非法获取数据用于模型训练,但一个人工智能模型开发者通过授权协议支付内容费用的市场正在兴起。像Def​​ined.ai这样的公司为购买训练数据、获得数据提供商的同意以及删除个人身份信息提供了便利。

报告最后指出,该研究使用 34 本 O’Reilly Media 专有书籍提供了经验证据,表明 OpenAI 可能使用非公开的、受版权保护的数据对 GPT-4o 进行了训练。

© 版权声明

相关文章

暂无评论

none
暂无评论...