Timothy B. Lee 曾为《华盛顿邮报》、Vox.com 和 Ars Technica 撰稿,现在在 Substack 博客“理解 AI”上撰写文章。本周,他探讨了斯坦福大学、康奈尔大学和西弗吉尼亚大学的计算机科学家和法律学者的最新研究,该研究发现 Llama 3.1 70B(于 2024 年 7 月发布)能够很好地记住《哈利·波特》第一部 42% 的内容,并且至少在一半的时间内能够复现 50 个 token 的摘录……这篇论文由斯坦福大学、康奈尔大学和西弗吉尼亚大学的计算机科学家和法律学者团队于上个月发表。他们研究了五种流行的开放权重模型(其中三种来自 Meta,微软和 EleutherAI 各一种)是否能够复现 Books3 中的文本,Books3 是一套广泛用于训练法学硕士 (LLM) 的书籍合集。许多书籍仍受版权保护……Llama 3.1 70B(Meta 于 2024 年 7 月发布的中型模型)比其他四种模型更有可能复现《哈利波特》文本……有趣的是,Llama 1 65B(2023 年 2 月发布的类似尺寸模型)只记住了 4.4% 的《哈利波特与魔法石》。这表明,尽管存在潜在的法律责任,但 Meta 在训练 Llama 3 时并没有采取太多措施来防止记忆。至少对于这本书来说,问题在 Llama 1 和 Llama 3 之间变得更加严重。《哈利波特与魔法石》是研究人员测试的数十本书之一。他们发现 Llama 3.1 70B 更有可能复现流行书籍 – 例如《霍比特人》和乔治奥威尔的《1984》 – 而不是鲜为人知的书籍。对于大多数书籍,Llama 3.1 70B 记忆的书籍比其他任何模型都多……对于人工智能行业的批评者来说,最大的收获是——至少对于某些模型和某些书籍而言——记忆并非边缘现象。另一方面,这项研究只发现了少数几本畅销书的显著记忆。例如,研究人员发现,Llama 3.1 70B 只记住了作家理查德·卡德里 2009 年的小说《Sandman Slim》的 0.13%。这与《哈利·波特》42% 的记忆率相比只是九牛一毛……要证明一组原告有罪,法院必须认定原告所处的法律和事实情况大体相似。像这样的不同结果可能会让人怀疑,将 J.K.罗琳、理查德·卡德里和数千名其他作家归为一类是否合理。这可能对 Meta 有利,因为大多数作家缺乏提起单独诉讼的资源。为什么会这样? “也许 Meta 难以找到 15 万亿个不同的标记,所以它多次在 Books3 数据集上进行训练。又或许 Meta 添加了第三方来源——例如在线哈利·波特粉丝论坛、消费者书评或学生读书报告——其中包含了哈利·波特和其他热门书籍的引文……” “又或许完全是另一种解释。也许 Meta 对其训练方案进行了细微的调整,意外地加剧了记忆问题。”
在 Slashdot 上阅读更多内容。