Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

微软的 VALL-E AI 可以模仿短音频样本中的任何声音

Posted on 2023-01-10

据Ars Technica报道,微软展示了其在文本到语音 AI 方面的最新研究,其模型名为VALL-E ,该模型仅需三秒钟的音频样本即可模拟某人的声音。演讲不仅可以匹配音色,还可以匹配说话者的情绪基调,甚至房间的声学效果。它可能有一天会被用于定制或高端文本到语音的应用程序,尽管它像deepfakes一样存在被滥用的风险。

VALL-E 是微软所说的“神经编解码器语言模型”。它源自 Meta 的 AI 驱动压缩神经网络编码解码器,从文本输入和来自目标说话者的短样本生成音频。

在一篇论文中,研究人员描述了他们如何在 Meta 的LibriLight音频库中使用来自 7,000 多名演讲者的 60,000 小时英语演讲来训练 VALL-E。它试图模仿的声音必须与训练数据中的声音非常匹配。如果是这种情况,它会使用训练数据来推断目标说话者在说出所需文本输入时的声音。

微软的 VALL-E AI 可以从一段简短的音频样本中模拟出任何人的声音

微软

该团队在 VALL-E Github 页面上展示了这到底有多好。对于他们希望人工智能“说话”的每个短语,他们都会从说话者那里得到三秒钟的提示来模仿,同一说话者说出另一个短语的“基本事实”进行比较,“基线”传统的文本到语音转换合成和最后的 VALL-E 样本。

结果好坏参半,有些听起来像机器,有些则非常逼真。事实上,它保留了原始样本的情感基调,这才是有效样本的卖点。它还忠实地匹配声学环境,因此如果扬声器在回声 y 大厅中录制他们的声音,VALL-E 输出听起来也像是来自同一个地方。

为了改进模型,微软计划扩大其训练数据,“以提高模型在韵律、说话风格和说话人相似性方面的表现。”它还在探索减少不清楚或遗漏单词的方法。

微软选择不将代码开源,这可能是由于 AI 固有的风险,可能会把话塞进别人的嘴里。它补充说,它将在任何进一步的开发中遵循其“Microsoft AI Principals”。该公司在其结论的“更广泛的影响”部分写道:“由于 VALL-E 可以合成保持说话者身份的语音,它可能会带来滥用模型的潜在风险,例如欺骗语音识别或冒充他人。”

原文: https://www.engadget.com/microsofts-vall-e-ai-can-simulate-any-persons-voice-from-a-short-audio-sample-112520213.html?src=rss

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Big Technology
  • Bits about Money
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • HeardThat Blog
  • Henrique Dias
  • Herman Martinus
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Li Haoyi
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Maggie Appleton
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mind Matters
  • Mostly metrics
  • Naval Ravikant
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steph Ango
  • Stephen Wolfram
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme