来自谷歌的令人印象深刻的新人工智能系统可以根据文本描述生成任何类型的音乐。但该公司担心风险,没有立即发布它的计划。
Google 的MusicML肯定不是第一个生成歌曲的 AI 系统。还有其他尝试,包括 Riffusion,一种通过可视化来创作音乐的 AI,以及Dance Diffusion ,Google 自己的 AudioML 和 OpenAI 的 Jukebox。但由于技术限制和训练数据有限,没有人能够制作出特别复杂或高保真的歌曲。
MusicML 可能是第一个可以做到的。
哇,这对我来说比 ChatGPT 还大。
谷歌几乎解决了音乐生成问题,我会说。 https://t.co/s9PQaJ5R6A– Keunwoo Choi (@keunwoochoi) 2023 年 1 月 27 日
在本周的一篇学术论文中有详细介绍,MusicML 在一组未标记音乐的数据集上进行了训练,以学习生成连贯的歌曲来描述——正如创作者所说的那样——“显着的复杂性”(例如“迷人的爵士乐歌曲与令人难忘的萨克斯管独奏和一位独唱歌手”或“柏林 90 年代低低音和强劲底鼓的 techno”。值得注意的是,它的歌曲听起来像是人类艺术家可能创作的东西,尽管不一定具有创造性或音乐凝聚力。
事实上,鉴于循环中没有音乐家或乐器演奏家,很难夸大样本的声音有多好。即使输入的描述有点冗长和曲折,MusicML 也能捕捉到细微差别,如器乐即兴重复段、旋律和情绪。
例如,下面示例的标题包括“引起迷失在太空中的体验”这一点,它肯定在这方面有所体现(至少在我耳边是这样):
这是另一个示例,生成自以“The main soundtrack of arcade game”开头的描述。有道理,不是吗?
MusicLM 的功能不仅限于生成歌曲短片。谷歌研究人员表明,该系统可以建立在现有旋律的基础上,无论是哼唱、演唱、吹口哨还是在乐器上演奏。此外,MusicLM 可以采用几个按顺序编写的描述(例如“冥想时间”、“醒来时间”、“跑步时间”、“100% 付出时间”)并创建一种旋律“故事”或叙事长度可达几分钟,非常适合电影配乐。
见下文,来自“电子游戏中播放的电子歌曲”、“河边播放的冥想歌曲”、“火”、“烟花”的序列。
这并不是说 MusicLM 完美无瑕——说实话,远非如此。一些样本质量失真,这是训练过程不可避免的副作用。虽然 MusicLM 在技术上可以生成人声,包括合唱和声,但许多功能还有很多不足之处。大多数“歌词”的范围从勉强连贯到纯粹的胡言乱语,由合成声音演唱,听起来像是几位艺术家的融合。
不过,谷歌研究人员注意到像 MusicML 这样的系统带来的许多道德挑战,包括将训练数据中受版权保护的材料合并到生成的歌曲中的不幸趋势。在一项实验中,他们发现系统生成的音乐中约有 1% 是直接从其训练的歌曲中复制的——这个门槛显然高到足以阻止他们发布当前状态的 MusicML。
“我们承认与用例相关的创意内容可能被盗用的风险,”该论文的合著者写道。 “我们强烈强调未来需要开展更多工作来应对这些与音乐生成相关的风险。”
假设有一天 MusicML 或类似的系统可用,似乎不可避免地会出现重大法律问题。他们已经有了,尽管围绕的是更简单的人工智能系统。 2020 年,Jay-Z 的唱片公司对 YouTube 频道 Vocal Synthesis 提出版权罢工,理由是它使用 AI 创作了 Jay-Z 翻唱比利·乔尔 (Billy Joel) 的“We Didn’t Start the Fire”等歌曲。在最初删除视频后,YouTube 恢复了它们,发现删除请求“不完整”。但deepfake音乐仍然站在模糊的法律基础上。
埃里克·桑雷 (Eric Sunray) 撰写的一份白皮书认为,像 MusicML 这样的人工智能音乐生成器通过“从他们在训练中摄取的作品中创建连贯音频的挂毯”侵犯了音乐版权,从而侵犯了美国版权法的复制正确的。”随着 Jukebox 的发布,批评者也质疑在受版权保护的音乐材料上训练 AI 模型是否构成合理使用。围绕图像、代码和文本生成 AI 系统中使用的训练数据也提出了类似的担忧,这些数据通常是在创作者不知情的情况下从网络上收集的。
从用户的角度来看,Waxy 的 Andy Baio推测由 AI 系统生成的音乐将被视为衍生作品,在这种情况下,只有原创元素会受到版权保护。当然,不清楚在这种音乐中什么可以被视为“原创”;将这种音乐用于商业用途就是进入未知水域。如果生成的音乐用于受合理使用保护的目的,比如模仿和评论,那就更简单了,但 Baio 预计法院将不得不根据具体情况做出判断。
可能很快就会对此事有所了解。法院审理的几起诉讼可能会对生成音乐的 AI 产生影响,其中一项涉及艺术家的权利,这些艺术家的作品在他们不知情或未同意的情况下被用于训练 AI 系统。