关于生成式人工智能训练的首个版权裁决对人工智能实验室来说是一个胜利

我暂时告别《特工周》去撰写一篇非常重要的版权裁决。敬请关注接下来几天《特工周》的更多内容。

周一，加州一名联邦法官裁定，Anthropic“从互联网上的盗版网站免费下载了数百万本受版权保护的数字书籍”。

通常情况下，法官这样评价你的公司会是个坏消息。但这项裁决实际上对 Anthropic 来说是个好消息，对更广泛的人工智能行业来说更是好消息。因为，如果上诉结果维持原判，它将为人工智能公司提供清晰的模型训练蓝图，而不会违反版权规定。

原告是三位作家，他们于去年8月起诉了Anthropic ，称Anthropic使用他们的书籍训练Claude模型侵犯了版权。这是一场集体诉讼，旨在代表数千名作家，他们的书籍被纳入Anthropic的Claude模型的训练数据中。Anthropic请求法官裁定，版权的合理使用原则允许其使用这些书籍进行训练。

康奈尔大学法律学者詹姆斯·格里梅尔曼告诉我：“他们想全面推翻合理使用原则。”然而，法官却做出了一个分裂的判决：Anthropic 的培训在某些方面符合合理使用原则，但其他方面则不然。

裁决中对 Anthropic 不利的部分将会产生不利影响；Anthropic 最终可能因过去的版权侵权而欠作者数亿美元。

盗版问题

Anthropic 是由一群与学术 AI 研究界有着深厚联系的前 OpenAI 研究人员创立的。传统上，该领域并不太担心版权问题。原因很简单：版权法通常对学术研究持宽松态度，而且大多数早期的 AI 模型几乎没有商业价值。

因此，当 Anthropic 准备在 2021 年训练第一个 Claude 模型时，它做了 AI 研究人员一直在做的事情：从互联网上下载一堆训练数据，而不必担心其版权状况。

威廉·阿尔苏普法官在周一的裁决中写道：“2021年1月或2月，Anthropic联合创始人本·曼恩下载了Books3，这是一个包含196,640本书的在线图书馆，他知道这些书籍是从未经授权的版权书籍副本中拼凑而成的，也就是盗版书籍。” 他还表示：“2021年6月，曼恩以这种方式从Library Genesis（简称LibGen）下载了至少500万册书籍，他知道这些书籍是盗版的。2022年7月，Anthropic同样从Pirate Library Mirror（简称PiLiMi）下载了至少200万册书籍，他知道这些书籍是盗版的。”

Anthropic 坚称所有这些复制行为都是合法的，因为版权法允许将受版权保护的作品用于转换性用途。例如， 2015 年的一项裁决裁定，谷歌为图书搜索引擎扫描数百万本受版权保护的书籍是合法的。该案的上诉法院裁定，图书搜索引擎是一种转换性使用，不会与图书本身产生竞争，因此根据版权的合理使用原则是允许的。

Anthropic 辩称，同样的逻辑也适用于其自身的训练流程，因为（与谷歌一样）它从未向用户分发过任何书籍。但 Alsup 法官对这一论点进行了严厉的驳斥。

他写道：“没有任何判决认为……盗版一本可以在书店买到的书对于撰写书评、研究书中内容或攻读法学硕士学位而言是合理必要的。这种盗版行为本质上是不可挽回的侵权行为，即使盗版副本立即被用于改编用途并被立即丢弃。”

所以，从Anthropic的角度来看，这可是个坏消息。案件尚未结束；还有一场庭审，Anthropic可以试图说服法官，这一切都是一场巨大的误会。但Anthropic似乎很可能会败诉，并欠数千名图书作者钱。

格里梅尔曼告诉我，原告可能有资格获得每件侵权作品750美元至3万美元的法定赔偿。由于涉及数十万件作品，Anthropic的损失很容易就达到数亿美元，甚至可能达到数十亿美元。

创建数字图书馆是合理使用

摄影：Alexander Spatari via Getty Images

想必 Anthropic 不愿向作者支付数亿美元。但这对于 Alsup 裁决的另一半来说，或许只是个小小的代价，该裁决为未来利用受版权保护的数据训练 AI 模型铺平了道路。