AI 生成的音乐已经是一个足够创新的概念,但 Riffusion 将其提升到另一个层次,采用一种巧妙、怪异的方法,即使用音频图像而不是音频来制作怪异而引人入胜的音乐。
听起来很奇怪,很奇怪。但如果它有效,它就有效。它确实有效!有点儿。
扩散是一种用于生成图像的机器学习技术,在过去一年中推动了 AI 世界的发展。 DALL-E 2 和 Stable Diffusion 是两个最引人注目的模型,它们通过逐渐用 AI 认为提示应该看起来的样子替换视觉噪音来工作。
该方法在许多情况下已被证明是强大的,并且非常容易进行微调,在这种情况下,您可以为大部分受过训练的模型提供大量特定类型的内容,以便让它专注于生成该内容的更多示例。例如,您可以在水彩画或汽车照片上对它进行微调,事实证明它在再现这些东西时更有能力。
Seth Forsgren 和 Hayk Martiros 为他们的爱好项目 Riffusion 所做的是在频谱图上微调稳定扩散。
“Hayk 和我一起在一个小乐队里演奏,我们开始这个项目只是因为我们热爱音乐,并且不知道 Stable Diffusion 是否有可能创建具有足够保真度的频谱图图像以转换为音频,”Forsgren告诉 TechCrunch。 “在这一过程中的每一步,我们都对可能性越来越印象深刻,一个想法会导致下一个想法。”
你问什么是频谱图?它们是音频的视觉表示,显示不同频率随时间的振幅。您可能见过波形,它显示随时间变化的音量并使音频看起来像一系列的山丘和山谷;想象一下,如果它不只是总音量,而是显示每个频率的音量,从低端到高端。
这是我用一首歌(如果您想知道的话,Secret Machines 的“Marconi’s Radio” )制作的其中一部分:
图片来源: Devin Coldewey
您可以看到它是如何随着歌曲的构建在所有频率上变得更响亮的,如果您知道要寻找什么,您甚至可以发现单个音符和乐器。这个过程无论如何都不是天生完美或无损的,但它是声音的准确、系统的表示。您可以通过反向执行相同的过程将其转换回声音。
Forsgren 和 Martiros 制作了一堆音乐的频谱图,并用相关术语标记生成的图像,例如“布鲁斯吉他”、“爵士钢琴”、“afrobeat”等。为模型提供这个集合可以让模型很好地了解某些声音“看起来像”以及如何重新创建或组合它们。
如果您在优化图像时对其进行采样,则扩散过程如下所示:
图片来源: Seth Forsgren / Hayk Martiros
事实上,该模型被证明能够生成频谱图,当将其转换为声音时,非常适合“放克钢琴”、“爵士萨克斯管”等提示。这是一个例子:
图片来源: Seth Forsgren / Hayk Martiros
但是当然,方形频谱图(512 x 512 像素,标准的稳定扩散分辨率)仅表示一个短片段;一首三分钟的歌曲将是一个更宽的矩形。没有人愿意一次听五秒钟的音乐,但他们创建的系统的局限性意味着他们不能只创建一个 512 像素高和 10,000 像素宽的频谱图。
在尝试了一些东西之后,他们利用了像 Stable Diffusion 这样具有大量“潜在空间”的大型模型的基本结构。这有点像定义更明确的节点之间的无人区。就像你有一个代表猫的模型区域,另一个代表狗,它们“之间”的是潜在空间,如果你只是告诉 AI 去画,就会是某种狗猫或猫狗,即使没有那种东西。
顺便说一句,潜在空间的东西比那更奇怪:
不过,Riffusion 项目没有令人毛骨悚然的噩梦世界。相反,他们发现,如果你有两个提示,比如“教堂钟声”和“电子节拍”,你可以一次从一个步进到另一个提示,它会逐渐地、令人惊讶地自然地从一个消失到另一个,节拍甚至:
这是一种奇怪而有趣的声音,虽然显然不是特别复杂或高保真;请记住,他们甚至不确定扩散模型是否可以做到这一点,所以这个模型将铃铛变成节拍或打字机敲打成钢琴和贝司的能力非常出色。
制作更长的剪辑是可能的,但仍然是理论上的:
“我们还没有真正尝试创作一首带有重复副歌和歌词的 3 分钟经典歌曲,”Forsgren 说。 “我认为这可以通过一些聪明的技巧来完成,比如为歌曲结构构建一个更高层次的模型,然后对单个剪辑使用较低层次的模型。或者,您可以使用更高分辨率的完整歌曲图像深入训练我们的模型。”
它从这里去哪里?其他团体正在尝试以各种方式创作 AI 生成的音乐,从使用语音合成模型到经过特殊训练的音频模型,如Dance Diffusion 。
Riffusion 更像是一个“哇,看看这个”演示,而不是任何一种重塑音乐的宏伟计划,Forsgren 说他和 Martiros 很高兴看到人们参与他们的工作,从中获得乐趣并不断迭代:
“我们可以从这里走向许多方向,我们很高兴能在这个过程中不断学习。今天早上看到其他人也已经在我们的代码之上构建他们自己的想法,这也很有趣。 Stable Diffusion 社区令人惊奇的事情之一是人们能够以多快的速度在原始作者无法预测的方向上构建事物。”
您可以在Riffusion.com上的现场演示中对其进行测试,但您可能需要稍等片刻才能呈现您的剪辑 — 这比创作者预期的要多一些关注。所有代码都可以通过关于页面获得,所以如果您有相应的筹码,也可以随意运行您自己的代码。
试试“Riffusion”,这是一种 AI 模型,它通过将音乐可视化来创作音乐,作者Devin Coldewey最初发表在TechCrunch上
原文: https://techcrunch.com/2022/12/15/try-riffusion-an-ai-model-that-composes-music-by-visualizing-it/