VALL-E 的快速声音深度伪造应该让你担心，如果你不担心的话

上周出现的一种特别有效的语音合成机器学习模型 VALL-E 引发了新一波的担忧，即人们对深度伪造声音的可能性产生了新一轮的担忧——如果你愿意的话，也可以说是快速伪造。但 VALL-E 迭代多于突破，而且功能并不像你想象的那么新。这是否意味着你应该或多或少地担心取决于你。

多年来，语音复制一直是深入研究的主题，结果已经足以为WellSaid 、 Papercup和 Respeecher 等众多初创公司提供支持。后者甚至被用于制作James Earl Jones等演员的授权配音复制品。是的：从现在开始，达斯维德将由 AI 生成。

微软的创建者上周在 GitHub 上发布的VALL-E 是一种“神经编解码器语言模型”，它使用与之前许多方法不同的方法来呈现声音。其更大的训练语料库和一些新方法使其能够使用来自目标说话者的仅 3 秒音频创建“高质量的个性化语音”。

也就是说，你只需要像下面这样一个极短的剪辑（所有剪辑都来自微软的论文）：

https://techcrunch.com/wp-content/uploads/2023/01/in1.wav

https://techcrunch.com/wp-content/uploads/2023/01/in2.wav

要产生听起来非常相似的合成语音：

https://techcrunch.com/wp-content/uploads/2023/01/outcome1.wav

https://techcrunch.com/wp-content/uploads/2023/01/outcome2.wav

正如您所听到的那样，它保留了音调、音色、口音的外观，甚至是“声学环境”，例如压缩到手机通话中的声音。我没有费心给它们贴上标签，因为你可以很容易地分辨出上面哪个是哪个。令人印象深刻！

如此令人印象深刻，事实上，这个特殊的模型似乎已经刺破了研究界的面纱并“成为主流”。昨晚我在当地喝了一杯，酒保着重描述了人工智能对语音合成的新威胁。这就是我如何知道我误判了时代精神。

但如果你回顾一下，早在 2017 年，你所需要的只是一分钟的声音来制作一个足够令人信服的假冒版本，它可以在随意使用时通过。这远非唯一的项目。

Lyrebird 是假新闻时代的声音模仿者

我们在 DALL-E 2 和 Stable Diffusion 等图像生成模型或 ChatGPT 等语言模型中看到的改进是一种变革性的、定性的改进：一两年前，这种级别的详细、令人信服的 AI 生成内容不可能。围绕这些模型的担忧（和恐慌）是可以理解和合理的。

相反，VALL-E 提供的改进是定量的，而不是定性的。对传播虚假语音内容感兴趣的不良行为者很久以前就可以这样做，只是需要更高的计算成本，这在当今并不是特别难找。特别是国家赞助的演员手头将拥有大量资源来完成必要的计算工作，例如，制作总统在热麦克风上说一些有害的话的假音频剪辑。

我与 James Betker 聊天，他是一名工程师，曾在另一个文本转语音系统（称为 Tortoise-TTS ）上工作了一段时间。

Betker 表示，VALL-E 确实是迭代的，并且像当今其他流行的模型一样，它的优势来自于它的规模。

新兴的语言模型类型及其重要性

“这是一个大型模型，就像 ChatGPT 或 Stable Diffusion；它对人类如何形成语音有一些固有的理解。然后，您可以在特定扬声器上微调 Tortoise 和其他模型，这会让它们变得非常非常好。不是‘听起来像’，很好，”他解释道。

当您对特定艺术家的作品“微调”Stable Diffusion 时，您并不是在重新训练整个巨大的模型（这需要更多的力量），但您仍然可以大大提高其复制该内容的能力。

但仅仅因为它很熟悉并不意味着它应该被解雇，Betker 澄清道。

“我很高兴它得到了一些关注，因为我真的希望人们谈论这个。实际上，我觉得言论有些神圣，就像我们的文化看待它的方式一样，”由于这些担忧，他实际上停止了自己模型的研究。由 DALL-E 2 创造的假 Dali 对人们来说并没有像听到自己的声音、爱人的声音或受人钦佩的人的声音那样的发自内心的影响。

Betker 推测，VALL-E 使我们离无处不在又近了一步，尽管它不是您在手机或家用电脑上运行的那种模型，但也相距不远。几年，也许，自己经营类似的东西；例如，他发送了这段他在自己的 PC 上使用 Samuel L. Jackson 的 Tortoise-TTS 生成的剪辑，该剪辑基于他的有声读物阅读：

https://techcrunch.com/wp-content/uploads/2023/01/samuel_jackson.mp3

好吧？几年前，你可能已经能够完成类似的事情，尽管付出了更大的努力。

这只是说，虽然 VALL-E 和 3 秒快换绝对引人注目，但它们只是研究人员十多年来走过的漫长道路上的一步。

这种威胁已经存在多年，如果有人愿意复制你的声音，他们早就可以做到了。这并没有减少思考的麻烦，被它吓跑也没什么错。我也是！

但对恶意行为者的好处是可疑的。例如，使用基于错误号码呼叫的可通过的快速伪造的小骗局已经非常容易，因为许多公司的安全措施已经很松懈。身份盗窃不需要依赖语音复制，因为有很多更容易的途径获得金钱和访问权限。

与此同时，好处可能是巨大的——想想那些因疾病或事故而失去说话能力的人。这些事情发生得很快，以至于他们没有时间录制一个小时的演讲来训练模型（并不是说这种能力广泛可用，尽管它可能是几年前的事了）。但是对于像 VALL-E 这样的东西，你所需要的只是从某人的手机上剪下他们在晚餐时敬酒或与朋友聊天的几个片段。

诈骗和假冒等等总是有机会的——尽管越来越多的人通过更平淡无奇的方式泄露了他们的金钱和身份，比如简单的电话或网络钓鱼诈骗。这项技术的潜力是巨大的，但我们也应该听从我们的集体直觉，说这里有危险。只是不要惊慌——还没有。

VALL-E 的 quickie voice deepfakes 应该让你担心，如果你不担心的话， Devin Coldewey最初发表于TechCrunch

原文： https://techcrunch.com/2023/01/12/vall-es-quickie-voice-deepfakes-should-worry-you-if-you-werent-worried-already/