
放大/ AI 生成的音符图像从计算机显示器中爆炸。 (来源:Ars Technica)
周四,一对技术爱好者发布了Riffusion ,这是一种 AI 模型,通过创建声音的视觉表示并将其转换为音频进行播放,从文本提示中生成音乐。它使用Stable Diffusion 1.5 图像合成模型的微调版本,以新颖的方式将视觉潜在扩散应用于声音处理。
Riffusion 由 Seth Forsgren 和 Hayk Martiros 作为一个业余爱好项目创建,通过生成声波图来工作,声波图将音频存储在二维图像中。在声波图中,X 轴代表时间(播放频率的顺序,从左到右),Y 轴代表声音的频率。同时,图像中每个像素的颜色代表了给定时刻的声音幅度。
由于超声波图是一种图片,Stable Diffusion 可以对其进行处理。 Forsgren 和 Martiros 训练了一个自定义的 Stable Diffusion 模型,其中包含与它们所代表的声音或音乐流派的描述相关联的示例声波图。有了这些知识,Riffusion 可以根据描述您想要听到的音乐或声音类型的文本提示即时生成新音乐,例如“爵士乐”、“摇滚”,甚至是在键盘上打字。