AI公司称其无法尊重版权。但一家非营利组织的研究人员刚刚构建了一个尊重版权的数据集

《华盛顿邮报》问道，训练人工智能是否需要受版权保护的材料？这正是顶尖人工智能公司所争论的，而且“迄今为止，很少有人工智能开发者尝试过更符合道德的途径。”一个由二十多名人工智能研究人员组成的团队发现，他们仅使用公开授权或属于公共领域的文本，就能构建一个庞大的8TB数据集。他们用该数据集训练了一个包含 70 亿个参数的语言模型，以测试其质量。该模型的表现与业内同类成果（例如 Meta 于 2023 年发布的 Llama 2-7B）相当。周四发表的一篇论文详细介绍了他们的工作，并指出该过程艰苦、艰巨，且无法完全自动化。该团队构建的 AI 模型比 OpenAI 的 ChatGPT 或谷歌的 Gemini 等最新模型小得多，但他们的研究成果似乎代表了迄今为止规模最大、最透明、最严谨的努力，旨在展示构建流行 AI 工具的不同方式……事实证明，这项任务需要大量人力。这是因为数据格式不符合机器可读的技术挑战，以及弄清楚哪个网站适用哪种许可证的法律挑战，在充斥着非法授权数据的行业中，这是一个令人望而生畏的挑战。Stella 表示：“这不是你仅仅扩大现有资源就能解决的事情”，比如使用更多计算机芯片和使用高级网络爬虫。 Biderman（非营利研究机构 Eleuther AI 执行董事）表示：“我们使用自动化工具，但所有的内容最终都是手动注释，并由人工检查的。这真的很难。”尽管如此，该团队还是设法挖掘出了可以合乎道德使用的新数据集。其中包括美国国会图书馆收藏的13万本英文书籍，其规模几乎是古腾堡计划畅销书数据集的两倍。该团队的举措还建立在近期开发更合乎道德但仍然有用的数据集的努力之上，例如机器学习开源存储库Hugging Face的FineWeb……尽管如此，Biderman仍然怀疑这种方法能否在网上找到足够的内容来匹配当今最先进模型的大小……Biderman表示，她并不指望OpenAI和Anthropic等公司会开始采用同样费力的流程，但她希望这能鼓励他们至少回到2021年或2022年，那时的人工智能公司还会分享几句话，说明他们的模型是基于什么进行训练的。“即使是部分透明，也具有巨大的社会价值和一定的科学价值，”她说。

在 Slashdot 上阅读更多内容。

原文： https://slashdot.org/story/25/06/07/0527212/ai-firms-say-they-cant-respect-copyright-but-a-nonprofits-researchers-just-built-a-copyright-respecting-dataset?utm_source=rss1.0mainlinkanon&utm_medium=feed