上周我写了一篇关于人工智能初创公司的文章,该公司正在构建可以实时改变某人讲话口音的技术。但是,如果人工智能的目标是让人们以他们所做的任何方式说话,被人们按照他们的本来面目理解,并在此过程中消除许多人工智能系统中固有的一些偏见,那又会怎样呢?对此也有很大的需求,现在一家名为Speechmatics的英国初创公司——它已经建立了人工智能来将语音翻译成文本,无论口音或说话方式如何——宣布筹集 6200 万美元的资金来扩大其业务。
美国的 Susquehanna Growth Equity 领投本轮融资,英国投资者AlbionVC和IQ Capital 也参与其中。这是系列 B 是 Speechmatics 的一大进步。该公司最初是由创始人托尼·罗宾逊博士于 2006 年在剑桥进行人工智能研究的,在此之前仅筹集了大约 1000 万美元(Albion 和 IQ 以及 CIA 支持的 In-Q 都是过去的支持者之一。 -电话等)。
在此期间,它已经建立了大约 170 个客户群——它只销售 B2B,为面向消费者或面向企业的服务提供动力——虽然它没有披露完整列表,但其中一些名称包括三词地址、 3Play Media 、Veritone、Deloitte UK 和 Vonage,它们以各种方式使用该技术,而不仅仅是传统意义上的转录;但用于接收口语以帮助应用程序功能的其他方面,例如自动字幕,或支持更广泛的可访问性功能。
它今天的引擎能够将语音翻译成 34 种语言的文本,除了使用资金继续提高准确性和业务发展之外,它还将添加更多语言并研究不同的用例,例如就像将语音构建成文本,可以在更棘手的机动车辆环境中使用(电机噪音和振动会影响 AI 获取声音的方式)。
“我们所做的是收集数百万小时的数据,以努力解决人工智能偏见。我们的目标是理解多种语言的任何声音,”这家初创公司的首席执行官 Katy Wigdahl 说(她与 Robinson 共同拥有这个头衔,后者最近已从执行职务上退下来)。
这体现在公司的产品重点和使命上,这也是它正在寻求扩展的东西。
“我们看待语言的方式是全球性的,”Wigdahl 说。 “谷歌将为每个版本的英语提供不同的包,但我们的一个包可以理解每个版本。”它最初仅通过出售给客户的私有 API 提供其技术。现在,为了吸引更多用户和潜在的付费用户,它还为开发人员提供更多开放的 API 工具来使用该技术,并在其网站上提供拖放式采样器。
事实上,如果 Speechmatics 的挑战之一是训练 AI 使其在理解人们的说话方式方面更加人性化,那么另一个挑战是为自己与其他主要的语音到文本技术提供商争吵。
Wigdahl 说,今天的公司与“大型科技公司”竞争——即亚马逊、谷歌和微软(现在拥有 Nuance)等大型公司已经构建了语音识别引擎并将技术作为服务提供给第三方。
但它表示它在测试中的得分始终高于这些,因为它能够理解何时以多种方式说出语言。 (它引用给我的一项测试是斯坦福大学的“语音识别中的种族差异”研究,该研究记录了“与谷歌(68.6%)和亚马逊(68.6)相比,非裔美国人声音的总体准确率为 82.8%。”它说“相当于减少了 45% 的语音识别错误——相当于一个平均句子中的三个单词。它还为 TC 提供了“竞争对手加权平均值”:
图片来源:语音学(在新窗口中打开)
不过,这里确实有一个巨大的机会,当你考虑到在较小的开发人员和像苹果、谷歌、微软和亚马逊这样的大型科技巨头之间,可能有数百家大公司可能还没有达到(或感兴趣)的水平。为此目的构建内部人工智能,但如果您以像 Spotify 这样的公司为例, 肯定对它感兴趣,并且肯定不希望依赖那些大公司,这些公司有时也是他们的竞争对手,有时也是他们的竞争对手彻底的陪衬。 (需要明确的是,Wigdahl 并没有告诉我 Spotify 是客户,而是说这是一个典型的例子,说明有人可能会敲响 Speechmatics 的门。)
这也是投资者如此热衷于为这家公司提供资金的部分原因。 Susquehanna 有支持公司的历史,这些公司看起来可能会让权力玩家为他们的钱而竞争(它是 Tik Tok 的早期和大支持者)。
Susquehanna Growth Equity 的医学博士 Jonathan Klahr 在一份声明中说:“Speechmatics 团队无疑是一个不同的技术专家。” “当我们的投资组合公司告诉我们,Speechmatics 一次又一次地在准确性上胜过所有其他选项,包括来自‘大科技’参与者的选项时,我们开始跟踪 Speechmatics。我们已准备好与团队合作,以确保更多公司能够接触并采用这种卓越的技术。” Klahr 在这一轮中加入了董事会。
事实上,随着技术变得更加自然化,并且那些制造它的人寻找更多方法来减少使用该技术可能存在的任何摩擦,语音已经成为一个主要的机会点,也是一个痛点。因此,拥有“阅读”和理解各种声音的技术可能会以各种方式得到应用。
“我们的观点是语音将成为日益占主导地位的人机界面,而 Speechmatics 是将深度学习应用于语音的类别领导者,其类别定义了跨行业用例和需求的准确性和理解,”合伙人 Robert Whitby-Smith 补充道在 AlbionVC。 “自 2019 年进行 A 轮投资以来,我们见证了过去几年团队和产品的惊人增长,作为负责任的投资者,我们很高兴支持公司的包容性使命,以了解全球每一个声音。”