Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

人工智能音乐生成器可能是艺术家的福音——但也存在问题

Posted on 2022-10-08

仅仅五年前,电子朋克乐队 YACHT 带着一项艰巨的任务进入录音室:他们将用 14 年的音乐训练一个 AI,然后将结果合成到专辑“ Chain Tripping ”中。

“我对成为反动分子不感兴趣,”YACHT 成员和科技作家克莱尔 L.埃文斯在一部关于这张专辑的纪录片中说。 “我不想回到我的根并弹吉他,因为我对即将到来的机器人世界末日感到非常害怕,但我也不想跳入战壕并欢迎我们的新机器人霸主。”

但我们的新机器人霸主在人工智能音乐生成领域取得了很大进展。尽管获得格莱美提名的“Chain Tripping”于 2019 年发布,但其背后的技术已经过时了。现在,开源 AI 图像生成器 Stable Diffusion 背后的初创公司正在推动我们再次向前迈进,它的下一个动作是:制作音乐。

创造和谐

Harmonai是一家获得 Stability AI 财务支持的组织, Stability AI是Stable Diffusion背后的伦敦初创公司。 9 月下旬,Harmonai 发布了Dance Diffusion ,这是一种算法和一套工具,可以通过对数百小时的现有歌曲进行训练来生成音乐片段。

“我在开始使用 Stability AI 的同时开始了我的音频扩散工作,”Dance Diffusion 开发负责人 Zach Evans 在电子邮件采访中告诉 TechCrunch。 “由于我与 [图像生成算法] Disco Diffusion 的开发工作,我被带到公司,我很快决定转向音频研究。为了促进我自己的学习和研究,并建立一个专注于音频 AI 的社区,我创办了 Harmonai。”

Dance Diffusion 仍处于测试阶段——目前,系统只能生成几秒钟长的剪辑。但早期的结果提供了对音乐创作未来的诱人一瞥,同时提出了对艺术家潜在影响的质疑。

舞蹈扩散艺术

图片来源: DALL-E 2/OpenAI

Dance Diffusion 的出现是在DALL-E 2背后的旧金山实验室 OpenAI 详细介绍了其名为Jukebox的音乐生成的宏大实验之后几年出现的。给定一个流派、艺术家和一段歌词,自动点唱机可以生成相对连贯的音乐,并带有人声。但是自动点唱机制作的歌曲缺乏更大的音乐结构,例如重复的合唱,并且经常包含无意义的歌词。

本周早些时候首次详细介绍的 Google 的 AudioLM 显示出更大的前景,它具有不可思议的能力,可以在一小段演奏的情况下生成钢琴音乐。但它还没有开源。

Dance Diffusion 旨在通过借鉴Stable Diffusion等图像生成器的技术来克服以前开源工具的局限性。该系统是所谓的扩散模型,它通过学习如何破坏和恢复许多现有数据样本来生成新数据(例如歌曲)。当它输入现有样本时——比如说,整个 Smashing Pumpkins 唱片——该模型在恢复之前为创建新作品而破坏的所有数据方面会变得更好。

Kyle Worrall,博士英国约克大学研究机器学习音乐应用的学生在接受 TechCrunch 采访时解释了扩散系统的细微差别:

“在扩散模型的训练中,诸如钢琴演奏的MAESTRO 数据集之类的训练数据被‘破坏’和‘恢复’,并且该模型在通过训练数据工作时改进了执行这些任务,”他说通过电子邮件。 “最终,经过训练的模型可以接收噪音并将其转化为类似于训练数据的音乐(即 MAESTRO 案例中的钢琴演奏)。然后,用户可以使用经过训练的模型执行以下三个任务之一:生成新音频、重新生成用户选择的现有音频或在两个输入轨道之间插入。”

这不是最直观的想法。但正如DALL-E 2 、Stable Diffusion 和其他此类系统所显示的那样,结果可能非常现实。

例如,看看这个在傻朋克音乐上微调的 Disco Diffusion 模型:

https://techcrunch.com/wp-content/uploads/2022/10/daft-punk-241.5k.wav

或者这种将加勒比海盗主题风格转移到长笛上的风格:

https://techcrunch.com/wp-content/uploads/2022/10/pirates_2_to_flute_3.wav

或者这种将 Smash Mouth 人声转换为俄罗斯方块主题的风格(是的,真的):

https://techcrunch.com/wp-content/uploads/2022/10/tetris_smashmouth-1.wav

或者这些模型,在无版权的舞曲上进行了微调:

https://techcrunch.com/wp-content/uploads/2022/10/demo_00199126.wav

https://techcrunch.com/wp-content/uploads/2022/10/GARNOS_FineTuneDemo.wav

艺术家视角

YACHT 的 Jona Bechtolt 对 Dance Diffusion 的创作印象深刻。

“我们最初的反应是,‘好吧,这与我们之前的原始音频相比有了飞跃,’”Bechtolt 告诉 TechCrunch。

与流行的图像生成系统不同,Dance Diffusion 在其可以创建的内容上有所限制——至少目前是这样。虽然它可以针对特定的艺术家、流派甚至乐器进行微调,但该系统并不像 Jukebox 那样通用。少数可用的 Dance Diffusion 模型——Harmonai 的大杂烩和官方 Discord 服务器上的早期采用者,包括使用 Billy Joel、披头士乐队、Daft Punk 和音乐家 Jonathan Mann 的Song A Day项目剪辑微调的模型——留在各自的车道。也就是说,Jonathan Mann 模型总是以 Mann 的音乐风格生成歌曲。

今天,Dance Diffusion 生成的音乐不会欺骗任何人。虽然系统可以通过将一位艺术家的风格应用到另一位艺术家的歌曲来“风格转移”歌曲,本质上是创建封面,但它不能生成长度超过几秒钟的剪辑和不乱码的歌词(见下文夹子)。自学成才的游戏开发者和 Harmonai Discord 的成员 Nicolas Martel 说,这是 Harmonai 尚未克服的技术障碍的结果。

https://techcrunch.com/wp-content/uploads/2022/10/demo_453001_37b18eae57e0eb82ac04.wav

“该模型一次只对 1.5 秒的短样本进行训练,因此它无法学习或推理长期结构,”Martel 告诉 TechCrunch。 “作者似乎在说这不是问题,但根据我的经验——无论如何从逻辑上讲——这并不是很正确。”

YACHT 的 Evans 和 Bechtolt 担心人工智能的伦理影响——毕竟他们是工作艺术家——但他们观察到这些“风格转移”已经是自然创作过程的一部分。

舞蹈扩散艺术

图片来源: DALL-E 2 / OpenAI

“这是艺术家们已经在工作室里以一种更加非正式和草率的方式做的事情,”埃文斯说。 “你坐下来写一首歌,你会想,我想要一条秋季贝斯线和 B-52 的旋律,我希望它听起来像是 1977 年来自伦敦的。”

但埃文斯对写下“Love Shack”的黑暗、后朋克演绎不感兴趣。相反,她认为有趣的音乐来自工作室的实验——即使你从 B-52 中获得灵感,你的最终产品也可能没有这些影响的迹象。

“试图实现这一目标,你失败了,”埃文斯告诉 TechCrunch。 “机器学习工具和人工智能艺术吸引我们的一个原因是它失败的方式,因为这些模型并不完美。他们只是在猜测我们想要什么。”

Evans 将艺术家描述为“终极的 beta 测试人员”,他们使用的工具超出了他们原本打算创造新事物的方式。

“通常情况下,输出可能非常奇怪、损坏和令人不安,或者听起来非常奇怪和新颖,失败是令人愉快的,”埃文斯说。

道德后果

假设 Dance Diffusion 有一天能够生成连贯的整首歌曲,那么重大的道德和法律问题似乎不可避免地会浮出水面。他们已经拥有了,尽管围绕着更简单的人工智能系统。 2020 年,Jay-Z 的唱片公司对 YouTube 频道 Vocal Synthesis 提出版权警告,因为该频道使用 AI 为比利·乔尔 (Billy Joel) 的“我们没有起火”等歌曲制作 Jay-Z 翻唱。在最初删除这些视频后,YouTube 恢复了它们,发现删除请求“不完整”。但deepfaked音乐仍然存在于模糊的法律基础上。

也许是预见到法律挑战,OpenAI 在非商业许可下开源了 Jukebox,禁止用户销售使用该系统创建的任何音乐。

“几乎没有什么工作可以确定生成算法的输出有多原始,因此在广告和其他项目中使用生成音乐仍然存在意外侵犯版权并因此损害财产的风险,”Worrall 说。 “这个领域需要进一步研究。”

由现为音乐出版商协会法律实习生的 Eric Sunray 撰写的一篇学术论文认为,像 Dance Diffusion 这样的人工智能音乐生成器通过“从他们在训练中摄取的作品中创建连贯音频的挂毯,从而侵犯了美国版权”,从而侵犯了音乐版权法案的复制权。”在 Jukebox 发布后,批评者还质疑在受版权保护的音乐材料上训练 AI 模型是否构成合理使用。图像、代码和文本生成 AI 系统中使用的训练数据也引发了类似的担忧,这些数据通常是在创建者不知情的情况下从网络上抓取的。

Mat Dryhurst 和 Holly Herndon 等技术专家创立了 Spawning AI ,这是一组由艺术家为艺术家打造的人工智能工具。他们的一个项目“我受过训练”允许用户搜索他们的作品,看看它是否在未经他们同意的情况下被纳入 AI 训练集。

Herndon 通过电子邮件告诉 TechCrunch:“我们向人们展示了用于训练 AI 图像系统的流行数据集中存在的内容,并最初为他们提供了选择退出或加入训练的工具。” “我们还与许多最大的研究机构进行了交谈,以说服他们同意数据对每个人都有益。”

舞蹈扩散艺术

图片来源: DALL-E 2/OpenAI

但这些标准是——而且很可能仍然是——自愿的。 Harmonai 还没有说它是否会采用它们。

“需要明确的是,Dance Diffusion 不是产品,目前只是研究,”Stability AI 的 Zach Evans 说。 “作为 Dance Diffusion 的一部分正式发布的所有模型都经过了公共领域数据、知识共享许可数据和社区艺术家贡献的数据的培训。这里的方法仅限于选择加入,我们期待与艺术家合作,通过进一步的选择加入贡献来扩大我们的数据,我对 Holly Herndon 和 Mat Dryhurst 以及他们新的 Spawning 组织的工作表示赞赏。”

YACHT 的 Evans 和 Bechtolt 看到了 AI 生成艺术的出现与其他新技术之间的相似之处。

“当我们看到所有学科都出现相同的模式时,这尤其令人沮丧,”埃文斯告诉 TechCrunch。 “我们已经看到人们在社交媒体上对安全和隐私不屑一顾会导致骚扰。当工具和平台是由不考虑他们工作的长期后果和社会影响的人设计时,事情就会发生。”

乔纳森·曼恩(Jonathan Mann)——他的音乐被用来训练早期的舞蹈扩散模型之一——告诉 TechCrunch,他对生成式人工智能系统的感受很复杂。虽然他认为 Harmonai 对他们用于培训的数据“深思熟虑”,但 OpenAI 等其他公司并没有那么认真。

“点唱机在未经许可的情况下接受了数千名艺术家的培训——这令人震惊,”曼恩说。 “知道很多人的音乐在未经他们许可的情况下被使用,使用自动点唱机感觉很奇怪。我们处于未知领域。”

从用户的角度来看,Waxy 的Andy Baio在一篇博文中推测,人工智能系统生成的新音乐将被视为衍生作品,在这种情况下,只有原始元素会受到版权保护。当然,目前还不清楚在这种音乐中什么可以被认为是“原创的”。在商业上使用这种音乐是进入未知领域。如果将生成的音乐用于受合理使用保护的目的,例如模仿和评论,那就更简单了,但 Baio 预计法院将不得不根据具体情况做出判断。

舞蹈扩散艺术

图片来源: DALL-E 2/OpenAI

根据 Herndon 的说法,版权法的结构不足以充分规范人工智能艺术创作。埃文斯还指出,音乐产业历来比视觉艺术世界更容易打官司,这也许就是为什么 Dance Diffusion 明确地在无版权或自愿提交的材料数据集上进行训练,而 DALL-E mini 很容易吐出一个如果您输入“神奇宝贝”一词,皮卡丘。

“我不认为这是因为他们认为这是符合道德的最佳做法,”埃文斯说。 “这是因为音乐版权法非常严格并且执行得更加积极。”

创造潜力

内布拉斯加大学林肯分校艺术专业的 Gordon Tuomikoski 是官方 Stable Diffusion Discord 社区的负责人,他认为 Dance Diffusion 具有巨大的艺术潜力。他指出,Harmonai 服务器的一些成员创建了在 dubstep “webs”、底鼓和军鼓以及伴声上训练的模型,他们将这些模型组合成原创歌曲。

“作为一名音乐家,我肯定会看到自己使用 Dance Diffusion 之类的东西来采样和循环,”Tuomikoski 通过电子邮件告诉 TechCrunch。

Martel 看到 Dance Diffusion 有一天会取代 VST,这是一种用于将合成器和效果插件与录音系统和音频编辑软件连接起来的数字标准。例如,他说,一个受过 70 年代爵士摇滚和坎特伯雷音乐训练的模型将智能地在鼓中引入新的“纹理”,比如微妙的鼓声和“幽灵音符”,就像约翰·马歇尔这样的艺术家可能 – 但无需通常需要的手动工程工作。

以塞内加尔鼓的这个 Dance Diffusion 模型为例:

https://techcrunch.com/wp-content/uploads/2022/10/download.wav

而这种圈套模型:

https://techcrunch.com/wp-content/uploads/2022/10/demo_195501_868b43fdb72ebce14c69.wav

这是一个男合唱团在三个八度音阶上以 D 调演唱的模型:

https://techcrunch.com/wp-content/uploads/2022/10/3Drone.wav

曼恩歌曲的这种模式与免版税的舞曲进行了微调:

https://techcrunch.com/wp-content/uploads/2022/10/demo_00594601.wav

“通常情况下,你必须在 MIDI 文件中写下音符,并且声音设计非常困难。以这种方式实现人性化的声音不仅非常耗时,而且需要深入了解您正在设计的乐器,”Martel 说。 “通过 Dance Diffusion,我期待将 70 年代最优秀的前卫摇滚注入 AI,这是一个由演奏 Pink Floyd、Soft Machine 和 Genesis 的音乐家组成的无限管弦乐队,数以万亿计的不同风格的新专辑,通过注入一些新的方式以新的方式重新混合Aphex Twin 和 Vaporwave,都在人类创造力的巅峰表现——所有这些都与您自己的个人品味相结合。”

曼有更大的野心。他目前正在使用 Jukebox 和 Dance Diffusion 的组合来玩音乐生成,并计划发布一个工具,让其他人也可以这样做。但他希望有一天能够使用 Dance Diffusion(可能与其他系统结合使用)来创建自己的“数字版本”,能够在他去世后继续进行 Song A Day 项目。

“它的具体形式还不是很清楚…… [但是] 感谢 Harmonai 的人们以及我在 Jukebox Discord 中遇到的其他一些人,在过去的几个月里,我觉得我们取得了更大的进步比过去四年的任何时候都要多,”曼恩说。 “我有超过 5,000 首 Song A Day 歌曲,包括歌词和丰富的元数据,属性范围从情绪、流派、节奏、调,一直到位置和胡须(我写作时是否有胡须)这首歌曲)。我的希望是,鉴于所有这些数据,我们可以创建一个模型,该模型可以可靠地创建新歌曲,就好像我自己写的一样。一天一首歌,但永远。”

如果人工智能能够成功制作新音乐,那么音乐家将何去何从?

YACHT 的 Evans 和 Bechtolt 指出,新技术之前已经颠覆了艺术界,结果并没有预期的那么灾难性。在 1980 年代,英国音乐家联盟试图禁止使用合成器,认为它将取代音乐家并使他们失业。

“有了合成器,很多艺术家接受了这个新事物,而不是拒绝它,他们发明了技术、嘻哈、后朋克和新浪潮音乐,”埃文斯说。 “只是现在,剧变发生得如此之快,以至于我们没有时间消化和吸收这些工具的影响并理解它们。”

尽管如此,YACHT 还是担心人工智能最终会挑战音乐家在日常工作中所做的工作,比如为广告写乐谱。但和 Herndon 一样,他们认为 AI 还不能完全复制创作过程。

“认为人工智能工具将取代人类表达的重要性,这是对艺术功能的分裂和根本性的误解,”赫恩登说。 “我希望自动化系统能够提出重要的问题,即我们作为一个社会对互联网上的艺术和新闻的重视程度有多么低。与其推测替代叙述,我更愿意将其视为重新评估人类的新机会。”

人工智能在生成色情内容方面做得越来越好。我们可能没有为后果做好准备。

人工智能音乐生成器可能是艺术家的福音——但最初发表在TechCrunch上的Kyle Wiggers也存在问题

原文: https://techcrunch.com/2022/10/07/ai-music-generator-dance-diffusion/

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Anil Dash
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Big Technology
  • Bits about Money
  • Brandon Skerritt
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • HeardThat Blog
  • Henrique Dias
  • Herman Martinus
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Li Haoyi
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Maggie Appleton
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mind Matters
  • Mostly metrics
  • Naval Ravikant
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steph Ango
  • Stephen Wolfram
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme