人们再也无法区分人工智能克隆语音和真人

研究人员仅用四分钟的录音就创造出了极其逼真的声音克隆。

利用人工智能合成逼真语音的能力拥有广泛的应用，既有良性的，也有恶意的。新的研究表明，如今人工智能生成的声音与真人的声音难以区分。

近年来，人工智能的语音生成能力显著提升。如今，许多服务已经能够进行更长时间的对话。通常，这些工具既可以克隆真人的声音，也可以生成完全合成的声音。

这可能会让强大的人工智能功能更容易普及，并提升人工智能代理在现实世界中扮演一系列面向客户角色的前景。但也有人担心，这些功能正在助长语音克隆诈骗的泛滥，不法分子会利用人工智能冒充受害者的家人或名人，试图操纵受害者。

从历史上看，合成语音一直具有机器人般的特质，使其相对容易识别，即使是早期的人工智能语音克隆，也会因其过于完美的节奏或偶尔出现的数字故障而暴露自身。但一项新的研究发现，普通听众已经无法区分真人声音和使用消费级工具制作的深度伪造克隆。

领导这项研究的伦敦玛丽女王大学纳丁·拉万（Nadine Lavan）在一份新闻稿中表示：“这个过程几乎不需要专业知识，只需要几分钟的录音，而且几乎不需要花钱。这表明人工智能语音技术已经变得多么普及和复杂。”

为了测试人们区分人类声音和人工智能声音的能力，研究人员在一个公开的数据集中创建了40个完全合成的人工智能声音和40个人类声音的克隆。他们使用了初创公司ElevenLabs的人工智能语音生成器工具，每个克隆大约需要四分钟的录音来创建。

随后，他们邀请28名参与者对这些声音的真实程度进行评分，并对这些声音是人类声音还是人工智能生成的做出二元判断。研究结果发表在《公共科学图书馆·综合》（PLOS One）上，作者发现，尽管人们能够在一定程度上区分人类声音和完全合成的声音，但他们无法区分克隆声音和真实声音。

该研究还试图了解人工智能生成的声音是否已经变得“超现实”。研究表明，人工智能图像生成技术已经得到了如此程度的改进，以至于人工智能生成的面部图片通常被认为比真人照片更像人类。

然而，研究人员发现，完全合成的声音被认为不如人类录音真实，而克隆声音则大致相同。尽管如此，参与者表示，人工智能生成的声音似乎比人类声音更具主导性，也更值得信赖。

Lavan 指出，创造超逼真的人工声音的能力可能具有积极的应用前景。“大规模生成逼真声音的能力开辟了令人兴奋的机遇，”她说。“定制的高质量合成声音或许可以提升用户体验，从而改善无障碍访问、教育和沟通。”

但这项结果与越来越多的研究结果一致，表明人工智能的声音正迅速变得无法被识别。Lavan 表示，这将在版权侵权、传播虚假信息和欺诈等领域引发诸多令人担忧的伦理问题。

尽管许多公司试图在其模型上设置防护栏以防止滥用，但人工智能技术的迅速普及和恶意行为者的创造力表明，这个问题只会变得更加严重。