Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

Voicemod 工具融资 1450 万美元以推动生成式 AI(声波)繁荣

Posted on 2023-02-25

当Voicemod的首席执行官兼联合创始人 Jamie Bosch 拿起电话谈论新一轮融资时,我们首先要问的不是我们习惯问的问题——但我们的问题可能会成为生成领域的常态向我们飞驰的人工智能未来:这是你的真实声音吗?

Bosch 的初创公司近十年来一直致力于音频效果,涉足数字信号处理 (DSP) 领域——其早期的重点是为游戏玩家创造有趣的“声音表情符号”效果和反应,为他们的语音聊天增添趣味。游戏玩家确实仍然是它的主要用户群(目前)。但音频领域正受到人工智能发展的推动——Voicemod 的团队希望这将带来全新的用例,并为其工具带来更多用户。

因此,DSP 技术是将效果应用于人的(真实)声音,而人工智能的发展使 Voicemod 等初创公司能够提供工具来创建完全合成的(虚幻)声音。甚至是用户实时“佩戴”这些声音的能力——这样他们就可以用不属于自己的声音说话。将其视为相当于Snapchat 镜头或TikTok 的病毒式青少年过滤器或Reface 的名人换脸的音频。

人工智能语音甚至可以将语音转换为另一个人的(真实)语音。而且不只是为了谈论天气或拍摄狗屎。但是对于所谓的唱到唱语音转换。这意味着您可以用别人的声音唱歌 – 为您的卡拉 OK 游戏增添活力,例如,将波西米亚狂想曲当作Freddie Mercury 的声音来演唱。如果您手头有足够的训练有素的 AI 模型(和麦克风),甚至可以在 Mercury、May 和 Taylor 之间切换,以获得完整的模拟歌剧效果。妈妈咪呀!

人工智能使这一切成为可能——即使法律和伦理问题可能会让人们停下来思考是否急于在一个仍然大量依赖固定身份的世界上释放实时语音转换。 (银行敦促客户记录“独特的声纹”以用作密码肯定需要坐起来开始听。)

Voicemod 去年收购了另一家名为 Voctro Labs 的音频效果初创公司,Bosch 表示正在努力将其技术与自己的技术融合,以创建一个增强型混合平台。该组合已经允许它扩展其提供的内容——去年 12 月推出了文本到歌曲的功能,让您可以使用生成 AI 将自己的歌词转换为声乐作品。他告诉我们更多正在开发中——包括前面提到的唱对唱功能。

Voctro 的技术可能很熟悉,因为它参与了音乐家 Holly Herndon 的声音克隆的开发,该声音克隆出现在去年病毒式传播的 Ted Talk中——可以听到她的 AI 声音与另一位音乐家 (Pher) 的真实声音二重唱即时的。好吧,如果你还没有看过的话,那真是一场视听奇观,而且解释起来也很冗长。它也是 Voicemod 为您附近的键盘带来的体验。

“我们肯定会推出更多产品和更多方式,让人们用生成式人工智能技术表达自己,”博世告诉我们。 “并非所有 Voctro Labs 的技术都与音乐有关——但他们有很多与歌唱相关的技术,从文本转歌曲技术到实时唱对唱技术。所以我们有很多新项目和新产品即将推出。

“我们将加强我们的语音到语音 AI 实时技术,因为我们基本上是在将我们的技术与他们的技术相结合。我们基本上是在创造一种混合技术,它会比我们的更好——或者两者兼而有之……[所以他们的唱对唱技术将]与我们的 DSP 技术相结合——我们可以用它来进行自动调谐。因此,我们可以潜在地帮助艺术家改善他们的声音和语气。所以这就是,这将非常非常有趣。”

除了提供直接面向消费者/创作者的音频工具外,它还通过 SDK 和 API 提供技术,供第三方集成到他们自己的产品中,从游戏和应用程序到硬件。因此,它被设置为在游戏玩家-创作者生态系统中分发其技术,并让需求来找到它。

音频中的生成式 AI 驱动的破坏当然反映了我们在其他地方看到的发展(在非精确的游乐场“疯狂镜子”的一种方式):视觉上,图形和插图,作为深度学习和出现的结果基于提示的图像生成界面(例如DALL-E和Stable Diffusion )。对于书面文字,通过支持生成式 AI 聊天机器人(如ChatGPT)的大型语言模型,可以按需生成歌词或整篇文章。事实上,就音乐创作而言——谷歌最近展示了一种基于提示的生成式 AI 歌曲作曲家,它显然可以产生与你描述的音乐氛围相匹配的编曲(尽管它表示它不会发布特定的生成式 AI 模型——但肯定有人会)。

很明显,人工智能正在改变一个人可以创造的规则。而且,就像自由、开放的概念一样,这既令人兴奋又令人恐惧。因为,重要的是你用它做什么。

未来几年的重点将是了解人们使用触手可及的强大 AI 工具做什么。

Voicemod团队合影

图片来源:Voicemod

Voicemod 正在通过为创作者构建一个工具箱来驾驭这股浪潮,让他们在现实扭曲的未来和一系列用例中生存和发展——因此它谈论的是社交元宇宙的声音身份和语音化身(在展望未来的结尾),而且还可以帮助您在 Zoom 工作通话中展现出最闪亮的声音。所以可以说是一种音频化妆。根据需要申请。

“现在突然之间,每个人都可以成为创造者,”Bosch 在谈到生成式 AI 的福音时预测道。 “基本上,每个人都可以来,没有任何技能。或者没有学习如何真正制作这些音频。他们将能够真正创作出这些音乐作品。歌曲。这最终演变成 – 可能 – 甚至是声音。所以创造声音的能力。”

“对于像 TikTok、YouTube Shorts 或 Instagram 这样的平台来说,这可能会成为真正的病毒式传播……这最终可能会演变成诸如卡拉 OK 之类的东西。而且,我不知道,游戏机的一部分,或者类似的东西,供人们用它来娱乐。而且,如果我们更进一步——技术会像我们想象的那样变得越来越好——这可能成为想要创作音乐的人的专业工具。或者对于想要为电影或游戏角色创建声音的人。

“我们坚信用户生成的内容,我们正在为我们的用户构建工具以开始创建声音和创造声音。我们将把技术交到用户手中来创造那些[声音]。并且,最终在未来,希望他们能达到专业水平。”

因此,虽然 – 目前 – 为了让初创公司合成完整的声音,它仍然需要一个声音工程师和设计师团队,但博世建议生成人工智能将把这种力量交到个人手中 – 这很快就会发生; “在不远的将来”。

“我不知道我们是否会提示——现在我们正处于这一波一切都通过提示完成的浪潮中——我不确定这是否会是这样,或者会有更多的工具嵌入人工智能技术我们的用户体验会让事情变得更容易,”他补充道。 “但我从观众和管理阶段的生成人工智能中看到的是,突然之间每个人都可以成为创造者,我认为这真的很有趣。”

AI 语音的诞生对于音响工程师和设计师的就业前景来说可能不是什么好消息(尽管技术进步可能只是创造新的要求,这些要求只是转移到需要他们专业知识的地方)。但博世认为,配音演员至少仍将发挥关键作用——为 AI 表达情感。因为机器人的声音不擅长正确地表达音调和语调,或者说情绪。基本上,这是一个没有灵魂的声音克隆。 (或者正如Nick Cave 所说,AI 的声音缺乏“它自己的血液、它自己的斗争、它自己的痛苦”——它缺乏人性。)

“我认为你总是需要在你的样本中加入这些声音的人为因素,”博世建议道。 “你可能拥有最好的声音——甚至是名人的声音——但真正带来的是印象。你仍然需要一个人来完成单词的节奏。你仍然需要一个人来做节奏,音调。所以 [不仅如此] 我可以正常说话而且我会听起来像个名人——不,你不需要——你还需要表现一点。所以……我认为表达的人为因素是关键。”

生成式 AI 是否也不能通过正确的人类数据集学会表达情绪——并进一步增强其模仿能力,从而让我们也能按需笑或哭、爱或恨?

“是的。好吧,我们拭目以待,”博世回应道。 “我不知道。我的意思是,到今天为止,对我来说,人工智能是一种供人类使用的工具。但是,是的,我们不知道这会发展到哪里。”

桌面语音模块

桌面版 Voicemod(图片来源:Voicemod)

Voicemod 正准备通过新一轮的资金来应对未来的任何语音疯狂。这家成立于 2014 年的初创公司多年来一直通过其工具的专业版创收——其主要产品Voicemod for Desktop迄今为止的下载量已超过 4000 万,而博世表示其每月活跃用户为 330 万——但在 2020 年夏季进行了 800 万美元的 A 系列融资后,它刚刚完成了 1450 万美元的扩张融资。总部位于马德里的 Kfund 的增长基金 Leadwind 领投了这轮融资,Minifund(Eros Resmini 前 Discord 首席营销官)和 Bitkraft Ventures 跟投。

Kfund 的合伙人 Jamie Novoa 告诉 TechCrunch:“我们对生成式 AI 可以对所有创意产业,更具体地说是音频,特别是在增强和增强创意人员已经完成的工作方面所做的事情感到非常兴奋。” “在过去的几个月里,生成人工智能总体上出现了爆炸式增长,更具体地说是在音频领域,但我们认为这种现象才刚刚开始。

“许多推向市场的酷炫技术所缺乏的是与之相关的具体且可扩展的商业模式,而 Voicemod 的与众不同之处在于,它打造了一款每天有数百万人使用的产品,并且具有显着的收入吸引力。我们对 Jaime 和 Voicemod 团队的其他成员正在筹备中以及即将发生的事情感到非常兴奋。”

Voicemod 表示,额外的资金将用于加强其实时 AI 语音识别功能的开发——并为 Z 世代、游戏玩家、内容创作者和各种技能水平的专业人士提供建议,以帮助他们通过声音表达自己在数字空间。

Per Bosch 表示,它现在需要更多资金的部分原因与对 Voctro Labs 的收购有关。除此之外,他说这是关于充分利用引发生成人工智能工具寒武纪大爆炸的机会。

“我们正处于人工智能的巨大革命之中,”他说。 “我们希望获得充足的资金,以便能够开发技术,同时也能够向用户提供技术。所以我认为我们的竞争优势之一是我们已经拥有市场和牵引力,我们基本上能够将其交到用户手中。而且我想确保有足够的跑道,也是由于市场条件,能够将所有这些都落实到位。因此,它将主要专注于……构建下一代人工智能技术并将其交到用户手中,同时构建这些创作工具供用户创作内容。”

第一个新工具将于下个月登陆——在 macOS 上推出 Voicemod 的桌面产品(目前仅限 PC)。目标是发展成为跨越所有设备的多平台产品。 “我们还在开发一款创作工具移动应用程序,希望能在下个季度初看到曙光。而且,是的,希望还会有更多的东西出现,”博世补充道。

他还告诉我们,这家初创公司正在研究一种水印技术,希望在今年第二季度推出——为平台提供一种能够在野外发现人工智能生成的声音的方法。

这样的功能可能是应对所有可能的负面用例(诈骗、欺诈、操纵、滥用、欺凌、拖钓等)的重要工具,人们可以想象人类会想出变声工具,让你听起来完全像你不是的人。

“这是一种给音频加水印的算法,”博世解释道。 “审核很复杂,因为它确实会根据空间而变化……在哪些平台上使用音频——所以我们认为频道应该拥有这种审核,我们正在做的是我们将提供这个水印系统,以便他们能够知道音频是通过合成语音创建的还是由真实语音创建的。”

“每一项新技术都可以用于好的或坏的,”他补充道。 “因此,我们当然会采用一些技术和一些工具,以便能够更好地控制对这项技术的滥用。”

关于培训数据的许可问题,这里的知识产权问题目前是一个灰色地带——因为法律还没有跟上人工智能的发展(更不用说生成人工智能了)。这意味着在该领域运营的初创公司必须考虑是充分利用完全的法律自由来做他们想做的事(并希望代价高昂的后果不会在短期内降临到他们身上),还是更加谨慎和深思熟虑。 (该领域的其他初创公司包括Voice AI 、 Koe和ElevenLabs 。)

博世声称 Voicemod 正在采用后一种方法——使用(付费)配音演员来建立数据集来训练和完善其 AI 模型。如果它想使用一些原创内容,他说该团队将与 IP 提供商进行谈判——并弄清楚他们将接受什么样的许可条款。 (显然,生成式人工智能的繁荣也是成为一名知识产权律师的疯狂激动人心的时刻。)

“我们基本上是在这里开拓,”他补充道。 “所以很多事情还没有法律,所以我们基本上是在努力坚持我们的价值观,并努力做正确的事。这是我们在数据 [方面] 的方法。但是,是的,你是完全正确的——你的声音没有“法律依附”,从今天开始……我们拥有我们的指纹。你不拥有,比如,无论你声音的指纹是什么。截至今日。

“这听起来有点像科幻小说,但也许在未来,我们会‘拥有’与我们的声音相关的东西。”

郑重声明,博世是在用他真实的声音跟我说话。该公司的实时语音转换技术还不能在移动设备上运行。但他说这也即将到来。所以系好安全带:合成的未来将是一场尖叫的狂野之旅。

随着 ChatGPT 的炒作达到高潮,Neeva 在国际上推出了其生成式 AI 搜索引擎

Voicemod 工具筹集了 1450 万美元,以推动Natasha Lomas最初在TechCrunch上发布的生成式 AI(音速)繁荣

原文: https://techcrunch.com/2023/02/24/voicemod/

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Big Technology
  • Bits about Money
  • Brandon Skerritt
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • HeardThat Blog
  • Henrique Dias
  • Herman Martinus
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Li Haoyi
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Maggie Appleton
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mind Matters
  • Mostly metrics
  • Naval Ravikant
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steph Ango
  • Stephen Wolfram
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme