本周,OpenAI 授予其图像生成 AI 系统 DALL-E 2 的用户使用其世代用于商业项目的权利,例如儿童书籍的插图和新闻通讯的艺术。考虑到 OpenAI 自己的商业目标,这一举措是有道理的——政策变化恰逢该公司推出 DALL-E 2 付费计划。但它引发了对像 DALL-E 2 这样的人工智能的法律影响的质疑,这些人工智能在周围的公共图像上进行了训练网络,以及它们侵犯现有版权的可能性。
DALL-E 2 对从互联网上抓取的大约 6.5 亿个图像-文本对进行“训练”,从该数据集中学习图像与用于描述它们的词语之间的关系。但是,尽管 OpenAI 过滤掉了特定内容(例如色情和重复)的图像,并在 API 级别实施了额外的过滤器,例如针对知名公众人物,但该公司承认,该系统有时可以创建包含商标徽标或字符的作品。看:
海绵宝宝在百思买购买电视pic.twitter.com/9TMUhVAllU
— 布赖恩·克罗宁
(@briangcronin) 2022 年 7 月 12 日
“OpenAI 将评估处理潜在版权和商标问题的不同方法,其中可能包括允许将此类生成作为‘合理使用’或类似概念的一部分,过滤特定类型的内容,以及就这些问题直接与版权 [和] 商标所有者合作,”该公司在周三发布的 DALL-E 2 测试版之前发布的一份分析报告中写道。
这不仅仅是 DALL-E 2 的问题。随着 AI 社区创建 DALL-E 2 及其前身 DALL-E 的开源实现,免费和付费服务都在基于不太仔细过滤的数据集训练的模型上推出。其中之一是Pixelz.ai ,它本周推出了一款由定制 DALL-E 模型提供支持的图像生成应用程序,它可以非常轻松地创建显示来自《银河护卫队》和《冰雪奇缘》等电影的各种口袋妖怪和迪士尼角色的照片。
当联系以征求意见时,Pixelz.ai 团队告诉 TechCrunch,他们已经过滤了该模型的训练数据,以防止亵渎、仇恨言论和“非法活动”,并阻止用户在生成时请求这些类型的图像。该公司还表示,它计划添加一个报告功能,允许人们将违反服务条款的图像提交给人类版主团队。但在涉及知识产权 (IP) 的地方,Pixelz.ai 让用户在使用或分发他们生成的图像时行使“责任”——无论是否存在灰色区域。
“我们不鼓励在数据集和我们平台的服务条款中侵犯版权,”该团队告诉 TechCrunch。 “话虽如此,我们提供了开放的文本输入,人们总能找到创造性的方式来滥用平台。”
来自迪士尼/漫威银河护卫队的火箭浣熊的图像,由 Pixelz.ai 的系统生成。
律师事务所 MBHD 的创始合伙人、知识产权法专家 Bradley J. Hulbert 认为,从版权角度来看,图像生成系统在多个方面存在问题。他指出,“明显源自”“受保护作品”(即受版权保护的角色)的艺术品通常会被法院认定为侵权,即使添加了其他元素。 (想象一张迪斯尼公主穿过纽约一个坚韧不拔的街区的形象。)为了免受版权索赔,作品必须是“变革性的”——换句话说,改变到 IP 无法识别的程度.
“如果在 DALL-E 2 生成的图像中可以识别出迪士尼公主,我们可以有把握地假设华特迪士尼公司可能会断言 DALL-E 2 图像是衍生作品,并且侵犯了其对迪士尼的版权公主的肖像,”赫伯特通过电子邮件告诉 TechCrunch。 “在确定副本是否构成‘合理使用’时,实质性转变也是一个考虑因素。但是,再次,如果迪士尼公主在后来的作品中可以辨认出来,假设迪士尼会声称后来的作品侵犯了版权。”
当然,知识产权持有者与被指控侵权者之间的斗争并不新鲜,互联网只是起到了助推器的作用。 2020 年,拥有拍摄哈利波特宇宙电影权利的华纳兄弟娱乐公司从 Instagram 和 Etsy 等社交媒体平台上删除了某些粉丝艺术。一年前,迪斯尼和卢卡斯影业请求Giphy 删除“尤达宝贝”的 GIF。
但生成图像的 AI 可能会通过降低进入门槛来极大地扩展问题。大公司的困境不太可能获得同情(他们也不应该),而且他们在执行知识产权方面的努力常常在舆论法庭上适得其反。另一方面,侵犯独立艺术家角色的人工智能生成的艺术品可能会威胁到生计。
围绕 DALL-E 2 等系统的另一个棘手的法律问题与其训练数据集的内容有关。像 OpenAI 这样的公司是否违反了知识产权法,使用受版权保护的图像和艺术品来开发他们的系统?这个问题已经在 Copilot(由 OpenAI 和 GitHub 联合开发的商业代码生成工具)的背景下提出。但与 Copilot 不同的是,Copilot 接受了 GitHub 可能有权根据其服务条款用于此目的的代码( 根据一项法律分析),DALL-E 2 等系统从无数公共网站获取图像。
女士们先生们,我收到了 Dall-E 2 的邀请!
在我开始发布令人惊奇的东西之前,这里有一些来自 Homer Simpson 在陌生事物中的剧照#dalle2 pic.twitter.com/PHPI6n9yJk
— 肢体0wl
(@limb0wl) 2022 年 7 月 5 日
正如 Dave Gershgorn 在 The Verge 最近的一篇专题文章中指出的那样,美国没有直接的法律先例支持公开可用的训练数据作为合理使用。
一个可能相关的案例涉及一家名为 Planner 5D 的立陶宛公司。 2020 年,该公司起诉Meta(当时的 Facebook)据称从 Planner 5D 的软件中窃取了数千个文件,这些文件通过与普林斯顿大学的合作提供给 Meta 2019 年计算机视觉研究人员场景理解和建模挑战赛的参赛者。 Planner 5D 声称,Princeton、Meta 和 Oculus,Meta 专注于 VR 的硬件和软件部门,本可以从从中获取的训练数据中获得商业利益。
此案要到 2023 年 3 月才会开庭审理。但去年 4 月,负责监督此案的美国地区法官否认了当时的 Facebook 和普林斯顿大学提出的驳回 Planner 5G 指控的动议。
不出所料,权利人并没有被合理使用的论点所左右。 Getty Images 的一位发言人在一篇文章中告诉 IEEE Spectrum,关于“图像的权利以及 [DALL-E 2 等模型] 训练过的图像中的人物、地点和对象的权利,有一些“大问题”需要回答。上。”插画家协会首席执行官雷切尔·希尔(Rachel Hill)也在文章中被引用,他提出了训练数据中图像补偿的问题。
Hulbert 认为,法官不太可能将训练数据集中受版权保护的作品的副本视为合理使用——至少在 DALL-E 2 等商业系统的情况下。他认为 IP 持有者可能会来在某些时候,像 OpenAI 这样的公司要求他们许可用于训练系统的图像。
“这些副本……构成对原作者版权的侵犯。侵权者应对版权所有者承担损害赔偿责任,”他补充说。 “[如果] DALL-E(或 DALL-E 2)及其合作伙伴制作了受保护作品的副本,而该副本既没有得到版权所有者的批准,也没有得到合理使用,则该复制构成侵犯版权。”
有趣的是,英国正在探索立法,以取消当前的要求,即通过文本和数据挖掘训练的系统(如 DALL-E 2)严格用于非商业目的。虽然版权持有人仍然可以通过将他们的作品置于付费墙后面来根据拟议的制度要求付款,但这将使英国的政策成为世界上最自由的政策之一。
鉴于美国知识产权持有者的游说能力,美国似乎不太可能效仿。这个问题似乎可能会在未来的诉讼中发挥作用。但时间会证明一切。




(@briangcronin) 

(@limb0wl)