
放大/ AI 生成的人物轮廓图像。 (来源:Ars Technica)
周四,微软研究人员宣布了一种名为VALL-E的新型文本转语音 AI 模型,该模型可以在给定三秒钟的音频样本时接近模拟人的声音。一旦它学会了一种特定的声音,VALL-E 就可以合成那个人说任何话的音频——并以一种试图保持说话者情绪基调的方式进行合成。
它的创造者推测 VALL-E 可用于高质量的文本到语音应用程序、语音编辑,其中可以编辑一个人的录音并从文本抄本更改(让他们说出他们最初没有说的话),以及与GPT-3等其他生成式 AI 模型相结合时的音频内容创建。
微软称 VALL-E 为“神经编解码器语言模型”,它建立在Meta 于 2022 年 10 月宣布的名为 EnCodec 的技术之上。与通常通过操纵波形合成语音的其他文本转语音方法不同,VALL-E 生成来自文本和声音提示的离散音频编解码器代码。它主要分析一个人的声音,借助 EnCodec 将该信息分解为离散的组件(称为“标记”),并使用训练数据来匹配它“知道”的内容,如果它说出这三个词之外的其他短语,该声音将如何发声- 第二个样本。或者,正如微软在VALL-E 论文中所说: