大规模机器学习模型是诸如 OpenAI 的DALL-E 2和谷歌的LaMDA等抢手技术的核心。可以肯定的是,它们令人印象深刻,能够生成足以让人信服的图像和文本。但是开发模型需要大量的时间和计算能力——更不用说现金了。根据一项估计,仅 DALL-E 2 就在 256 个 GPU 上训练了 2 周,如果在 Amazon Web Services 实例上进行训练,其成本约为 130,000 美元。
较小的公司难以跟上步伐,这就是为什么许多人求助于“人工智能即服务”供应商,这些供应商处理创建模型的挑战性工作,并通过 API 对模型的访问收费。此类供应商之一是AssemblyAI ,它专门专注于语音到文本和文本分析服务。
AssemblyAI 今天宣布,它在 Insight Partners 领投的 B 轮融资中筹集了 3000 万美元, Y Combinator 和 Stripe 的联合创始人 John 和 Patrick Collison、Nat Friedman 和 Daniel Gross 参与了该轮融资。迄今为止, AssemblyAI 已经筹集了 6400 万美元,创始人兼首席执行官 Dylan Fox 告诉 TechCrunch 正在投资于发展公司的研究和工程团队以及数据中心能力 AI 模型培训。
Fox 在思科工作了 2 年后创立了 AssemblyAI,在那里他致力于协作产品的机器学习。在此之前,他创办了 YouGive1,该组织与公司合作,通过产品优惠来奖励客户以换取非营利组织的捐款。
“我一直在为过去的项目寻找语音识别和自然语言处理 (NLP) API,并在看到 2017 年可用选项的有限和低准确性后开始使用 AssemblyAI,”Fox 在电子邮件采访中告诉 TechCrunch。 “该公司的目标是研究和部署用于 NLP 和语音识别的尖端 AI 模型,并将这些模型以非常简单的软件开发工具包和免费且易于集成的 API 的形式提供给开发人员。”
AssemblyAI 以 80 多种语言提供基于 API 的人工智能服务,用于自动转录、主题检测和内容审核以及“自动章节”,将音频和视频文件分解为“章节”,并为每个章节提供摘要。使用该平台,开发人员可以调用各种 API 以相对较低的成本执行诸如“识别此对话中的说话者”或“检查此播客是否有禁止内容”之类的任务,起价为每音频每秒 0.00025 美元。
图片来源: AssemblyAI
“我们正在数百个 GPU 上训练具有数十亿参数的大规模 AI 模型,”Fox 说。 “参数”是指模型的大小;一般来说,较大的模型更复杂。 “利用人工智能研究的进步,我们继续显着提高所有人工智能模型的准确性,并推出新模型,”他继续说道。 “我们的‘AutoTrain’功能使 API 能够从客户数据的随机样本中学习,以便随着时间的推移自动改进。”
在繁华的人工智能即服务领域,AssemblyAI 并不是唯一的参与者。 NLPCloud通过 API 提供开箱即用的 NLP 模型,而Sayso创建了一个 API,可以近乎实时地将带口音的英语从一种口音变为另一种口音。并非没有,亚马逊、谷歌和微软拥有大量基于 API 的 AI 产品,针对文本分析、图像识别、文本到语音、语音到文本等应用程序。
但 Fox 表示,AssemblyAI 继续快速增长,这在大流行的推动下,以及——进而——远程工作的兴起。他指出,音频和视频正在被纳入越来越多的产品中,例如视频会议甚至约会应用程序。这促使产品团队寻找在音频和视频数据之上构建附加的高价值功能的方法。
“这些功能看起来像是社交媒体公司的信任和安全团队,自动对音频帖子进行内容审核,或广告平台自动识别播客和视频中所说的主题,协作工具为在其平台内共享的视频消息提供可读的文字记录、摘要和关键字,和电话公司建立更智能的联络中心平台和收入情报产品,可以分析客户支持和销售电话,”福克斯说。 “ AssemblyAI 正迅速成为这些产品团队的首选 API 平台,以便能够在其产品中的音频和视频数据之上提供这些 AI 注入功能。”
Fox 表示,AssemblyAI 现在在其 10,000 多名用户中拥有“数百名”付费客户。自 2022 年初以来,用户群增长了 3 倍,而 Fox 拒绝透露的收入增长了 3 倍。
“[我们] 每天处理数百万个 API 调用,”Fox 说。 “我们计划在未来六个月内将我们的 AI 研究团队扩大 3 倍,并在 GPU 硬件上投资数百万美元,以训练更大、更复杂的 AI 模型,从而突破极限。”
Fox 认为,这种增长将使 AssemblyAI 在来年处于有利地位——无论它们可能带来什么逆风。他表示,在裁员成为常态且融资难的时候,AssemblyAI 将逆势而上,到年底将其 52 人团队的规模扩大近一倍。
“我们几乎没有动用我们的 A 轮融资,几个月前我们刚刚在 2 月份从 Accel 关闭,并且没有积极筹款。但我们已经与 Insight 的 Rebecca [Liu-Doyle] 联系了一段时间,觉得她,整个 Insight,加上额外的资本,真的会帮助我们 [刺激] 进一步发展,”Fox 说。 “随着市场的开放,我们需要能够将自己确立为该领域的主导供应商,并支持客户不断增长的期望——使用更准确的人工智能模型来支持他们正在构建的功能和产品。”