自然语言处理 (NLP) 是人工智能领域,涉及为包括摘要和生成在内的任务解析文本,是一项快速发展的技术。根据 John Snow Labs 和 Gradient Flow 2021 年的一项调查,60% 的技术领导者表示他们的 NLP 预算与 2020 年相比至少增长了 10%,而三分之一的人表示他们的支出增长了 30% 以上。 Fortune Business Insights 预计2020 年 NLP 市场为 165.3 亿美元。
在此背景下,开源 NLP 框架 Haystack 背后的初创公司Deepset今天宣布,它在由 GV 领投的 A 系列投资中筹集了 1400 万美元,参与方包括 Harpoon Ventures、System.One、Lunar Ventures 和 Acequia Capital。资本注入与 Deepset Cloud 一起到来,这是一种用于构建 NLP 驱动软件的新订阅产品。
“在 [我们] 对开源的信念的推动下,Deepset 团队 [多年来] 一直在为开源 NLP 社区贡献模型和研究成果,”Rusic 通过电子邮件告诉 TechCrunch。 “ Haystack 是公司的旗舰开源产品,其诞生于为大型组织构建 NLP 时获得的经验、专业知识和专有技术,以及对可扩展、API 驱动的 NLP 后端应用程序的适当构建块的需求。 ”
首席执行官 Milos Rusic 于 2018 年与 Malte Pietsch 和 Timo Möller 共同创立了 Deepset。拥有数据科学背景的 Pietsch 和 Möller 来自广告技术初创公司 Plista,他们在那里开发的产品包括人工智能驱动的广告制作工具。
Haystack 允许开发人员为 NLP 用例构建管道。该框架最初是为搜索应用程序创建的,它可以为回答特定问题(例如,“为什么初创企业搬到柏林?”)或筛选文档的引擎提供动力。
Haystack 还可以进行“基于知识”的搜索,在具有大量数据的网站或内部 wiki 上查找详细信息。 Rusic 表示,Haystack 已被用于自动化金融服务公司的风险管理工作流程,返回诸如“业务前景如何?”之类的查询结果。以及“过去几年的收入是如何演变的?”其他组织,如 Alcatel-Lucent Enterprise,已经利用 Haystack 推出了向现场技术人员推荐文档的虚拟助手。

Haystack 界面截图。
根据 Rusic 的说法,Haystack 的目标是让开发人员和产品部门能够成功且快速地构建现代的、API 驱动的 NLP 应用程序。他指出,虽然数据科学团队提出原型通常很简单,但在从原型过渡到生产过程中可能会出现挑战。根据 2019 年 Gartner 的一项调查,大约 80% 的 AI 项目(包括 NLP 项目)从未投入生产。
“[使用 Haystack,] 开发团队……配备了构建全栈 NLP 应用程序的所有组件,并以适当的工作流程为指导……现代 NLP 发展非常迅速,而且更容易弥合前沿技术之间的差距通过开源进行研究和实际生产就绪技术,”Rusic 说。 “[预建 NLP 系统] 是 [Haystack] 的基础,通常无需额外培训即可在管道中提供出色的结果。如果需要,定制会发生在最终用户和专家身上,他们通过测试和使用 [系统] 或管道的新迭代来提供反馈。”
但并非每家公司都选择或希望走 DIY 路线。对于那些更喜欢托管解决方案的人,有前面提到的 Deepset Cloud,它在 NLP 服务生命周期内为客户提供支持。该服务从实验开始——即测试和评估一个应用程序,并将其调整为一个用例,并构建一个概念证明——最后是标记和监控生产中的应用程序。
“[使用 Deepset Cloud] 开发的所有 NLP 服务都可以在任何终端应用程序中使用,只需集成一个 API,”Rusic 说。 “示例应用程序是 NLP 驱动的企业搜索(想想‘现代谷歌式’搜索)和知识管理。”
随着新融资的获得(总计 1560 万美元),Deepset 的目标是将其开源成功(目前有数千家组织使用 Haystack)转化为增加的收入。 Rusic 表示,这家 30 人、总部位于德国柏林的公司在 2021 年筹集第一轮融资之前处于自力更生且收支平衡的状态,现在拥有包括空中客车在内的大型企业客户。
原文: https://techcrunch.com/2022/04/28/deepset-raises-14m-to-help-companies-build-nlp-apps/