Anthropic 为 AI 赢得了一项重大的合理使用胜利——但它仍然因窃取书籍而陷入困境
今天,美国人工智能行业迎来重大法律新闻。威廉·阿尔苏普 (William Alsup) 法官就五位作家与 Anthropic 公司就其著作被用作训练数据的诉讼案发布了一项“简易判决”(即一项导致案件部分内容免于审理的法律裁决)。
该判决本身是一个非常易读的 32 页 PDF,其中包含有关 Anthropic 如何训练其模型的各种有趣的幕后细节。
投诉内容可以追溯到该公司成立之初。Anthropic 由一群前 OpenAI 研究人员于 2021 年 2 月创立。判决书称:
因此,在2021年1月或2月,Anthropic的另一位联合创始人本·曼恩(Ben Mann)下载了Books3,这是一个包含196,640本书的在线图书馆,他知道这些书籍是从未经授权的版权书籍(也就是盗版书籍)中收集而来。Anthropic的下一步盗版收购涉及下载其他盗版图书馆的分发和再共享副本。2021年6月,曼恩以这种方式从Library Genesis(简称LibGen)下载了至少500万册他知道是盗版的书籍。此外,在2022年7月,Anthropic还从Pirate Library Mirror(简称PiLiMi)下载了至少200万册Anthropic知道是盗版的书籍。
Books3 也被列为 Meta 的 LLaMA训练数据的一部分!
Anthropic 显然利用这些数据源来帮助建立一个内部内容“研究库”,然后他们对其进行过滤和注释,并用于训练运行。
事实证明,书籍是训练强大模型的“数据组合”中非常有价值的组成部分。到2024年,Anthropic 采用了新的收集方法:购买并扫描数百万本纸质书籍!
为了找到新的图书获取途径,2024年2月,Anthropic聘请了谷歌图书扫描项目前合伙人主管汤姆·特维(Tom Turvey)。他的任务是获取“世界上所有的书籍”,同时尽可能避免“法律/实践/商业方面的麻烦”(Opp. Exhs. 21, 27)。[…] 特维和他的团队给主要的图书分销商和零售商发了邮件,建议他们为这家人工智能公司的“研究图书馆”批量采购纸质版(Opp. Exh. 22,145;Opp. Exh. 31,-035589)。Anthropic花费数百万美元购买了数百万本纸质书籍,这些书籍通常都是二手的。之后,其服务提供商将书籍从装订线上剥离,按尺寸裁剪,然后扫描成数字形式——丢弃纸质原件。每本印刷书籍都会生成一份 PDF 副本,其中包含扫描页面的图像和机器可读的文本(包括平装书的封面和封底扫描)。
简易判决认定,这些扫描版书籍确实构成合理使用,因为它们是作品的变形版本,且未在公司外部共享。下载的电子书不构成合理使用,这些电子书似乎即将接受陪审团的审判。
以下是该决定的部分内容:
在为其中央图书馆购买书籍之前,Anthropic 公司下载了超过七百万份盗版书籍,没有支付任何费用,并且即使在决定不再使用这些盗版书籍来训练其人工智能之后,仍将这些盗版书籍保留在图书馆中。作者认为,Anthropic 公司应该为这些盗版图书馆副本付费(例如,Tr. 24–25, 65;Opp. 7, 12–13)。本命令同意了这一观点。
本案最重要的问题是,使用未经授权的数据进行法学硕士(LLM)培训是否构成“合理使用”。法官裁定是的。关于“合理使用”的辩论占据了文件好几页,但以下几点似乎是一个关键点:
每个人都会阅读文本,然后创作新的文本。他们或许一开始需要付费才能获得文本。但要让任何人每次阅读、每次回忆、每次以新方式创作新作品时都专门为使用书籍付费,这简直不可想象。几个世纪以来,我们反复阅读书籍。我们欣赏、记忆并内化了它们宏大的主题、实质性的观点以及它们针对反复出现的写作问题提出的文体解决方案。
签署这项简易判决的法官是一位有趣的人物:威廉·哈斯克尔·阿尔苏普(William Haskell Alsup)(是的,他的中间名确实是哈斯克尔)主持了 2012 年和 2016 年甲骨文美国公司诉谷歌公司的陪审团审判,他在审判中利用自己业余的 BASIC 编程经验来挑战该案律师提出的主张。
标签:法律、人工智能、生成人工智能、法学硕士、人择、训练数据、人工智能伦理
原文: https://simonwillison.net/2025/Jun/24/anthropic-training/#atom-everything