OpenAI 的视频生成工具“Sora”是否会抓取未经授权的 YouTube 剪辑？

《华盛顿邮报》报道称：“OpenAI 的视频生成工具 Sora 可以生成几乎任何你想要的高清片段……”。“但 OpenAI 并未具体说明 Sora 是从哪些视频中抓取的，只是说它结合了‘公开可用和授权数据’……”OpenAI 通过 ChatGPT 推广了如今已成为行业标准的 AI 工具构建方法，即通过未经同意从网络上抓取大量文本来构建更强大的 AI 工具。OpenAI 的员工表示，他们通过去年 12 月推出的 Sora 构建了一个开创性的视频生成器。他们开发了向系统提供更多在线视频（格式更多样化）的方法，包括垂直视频和更长、更高分辨率的片段……为了探索 OpenAI 可能使用的内容，《华盛顿邮报》使用 Sora 制作了数百个视频，表明它可以完美模仿电影、电视节目和其他内容……在数十次测试中，《华盛顿邮报》发现，Sora 可以创建与 Netflix 节目（例如《星期三》）、热门电子游戏（例如《我的世界》）等非常相似的片段；以及深受喜爱的卡通人物，以及华纳兄弟、梦工厂和其他好莱坞工作室、电影和电视节目的动画标识。Sora 的公开版本只能生成 20 秒的片段，且没有音频。在大多数情况下，这些相似的场景是通过输入“环球影城简介”之类的基本指令来制作的。结果还显示，Sora 可以制作带有广播公司和科技公司用来为其视频内容打上品牌标识或水印的 AI 视频，包括美国职业篮球联赛 (NBA)、中国社交应用 TikTok 和亚马逊旗下的流媒体平台 Twitch……AI 研究人员表示，Sora 能够重现特定图像和品牌的能力表明，该工具的训练数据中出现了原始图像和品牌的版本。“该模型只是在模仿训练数据。这没什么神奇的，”麻省理工学院的博士研究员 Joanna Materzynska 说道，她研究过 AI 中使用的数据集。AI 工具复制专有内容的能力并不一定表明原始材料是从其创建者或所有者处复制或获取的。各种内容被上传到视频和社交平台，通常未经版权所有者同意……Materzynska 去年与他人合作撰写了一项研究，发现人工智能研究中常用的公共视频数据集中超过 70% 的内容是从 YouTube 上抓取的。据该文章称，Netflix 和 Twitch 表示，他们没有为训练 OpenAI 建立内容合作伙伴关系（文章还补充说，OpenAI“尚未因用于 Sora 的数据而面临版权诉讼”。）文章中的两个关键引述：“未经授权抓取 YouTube 内容仍然违反我们的服务条款。”——YouTube 发言人 Jack Malon “我们根据公平使用原则使用公开数据进行训练，并使用行业领先的安全措施，避免复制他们学习的材料。”——OpenAI 发言人 Kayla Wood

在 Slashdot 上阅读更多内容。

原文： https://news.slashdot.org/story/25/09/20/0120220/is-openais-video-generating-tool-sora-scraping-unauthorized-youtube-clips?utm_source=rss1.0mainlinkanon&utm_medium=feed