自然语言处理 ( NLP ) 虽然算不上一门新学科,但在过去几个月中迅速进入公众意识,这在很大程度上要归功于ChatGPT 的生成式 AI炒作。除了其他 NLP 模型(例如 Hugging Face 的 Transformers和谷歌的 LaMDA将为其ChatGPT 竞争对手 Bard提供动力)之外,还有一种明显的感觉,即 AI 即将成为主流。
但是对于那些在 ChatGPT 中输入几个关键字以使其以 Nick Cave 的风格创作歌词的人来说,很容易忽略开发底层人工智能模型的所有工作,让它们达到为大众市场做好准备的程度消耗。
要创建 NLP 模型,开发人员不仅需要算法,还需要大量准确“标记”的高质量训练数据,这是一种对原始数据进行分类以使机器能够理解并从中学习的技术。许多公司实质性地为这个标记过程提供动力,其中之一是德国初创公司Kern AI ,它为 NLP 开发人员和数据科学家构建了一个平台,不仅可以控制标记过程,还可以自动化和编排切向任务,并允许他们解决低- 随心所欲的高质量数据。
“以数据为中心”的 NLP
随着 NLP 成为当下最热门的 AI 趋势之一,Kern AI 今天宣布,它已经筹集了 270 万欧元(290 万美元)的种子资金,以在最近的增长上加倍努力,这些增长已经被商业客户采用,包括保险公司Barmenia和VHV Versicherungen 、Metro Supply Chain Group 子公司Evolution Time Critical等物流公司,以及Crowd.dev 等风险投资支持的初创公司。该公司还表示,其基本的开源化身已被三星和 DocuSign 等公司的数据科学家使用。
联合创始人兼首席执行官约翰内斯·霍特 (Johannes Hötter) 于 2020 年在波恩成立,他表示,他创立这家公司时“坚信 NLP 将成为一种核心数字化技术”,并承认开发人员需要对 NLP 开发过程有更多的控制权和灵活性。
该公司的旗舰产品是开源Refinery ,它允许开发人员采用以数据为中心的方法通过半自动化标记来构建 NLP 模型,识别训练数据中的低质量数据集,并在单一界面中监控所有数据.
在其他地方, Bricks——也是开源的——是一组模块化的、标准化的“代码片段”,开发人员可以将其集成到 Refinery 中——据该公司称,它是“驱动 NLP 自动化的应用程序逻辑”。

Kern AI:Refinery in action图片来源:Kern AI
Hötter 说,Kern AI 平台的一个典型的真实世界用例涉及公司的内部工具。例如,一家物流公司可能需要响应客户的请求,例如“请在明天下午 4 点之前将 20 个托盘运送到我们在哥德堡的工厂”——这种对时间敏感的请求需要迅速得到响应。物流公司可以使用 Kern AI 将传入请求与其运输管理系统 (TMS) 同步,以自动检测请求的意图和要求。
“这是通过将服务收件箱与我们的商业产品工作流程同步来完成的,然后将数据推送到 Refinery,”Hötter 向 TechCrunch 解释道。 “在这里,开发人员可以使用 NLP 技术来分析请求,然后将提取的结构化信息直接推送到他们的 TMS。”
因此,在某些方面,它的工作方式类似于Zapier 之类的东西,但它不是遵循基于规则的方法,而是为更复杂的自然语言理解而构建的。
比赛状态
事实上,已经有无数类似的平台,涵盖了整个专有和开源领域。其中包括最近筹集了160 万美元种子轮融资的 Argilla,以及去年为Labelstudio筹集了 2500 万美元的巨额资金的Heartex。然后是 Snorkel AI,这是一种专有产品,在其历史上已获得约 1.35 亿美元的融资。
那么,Kern AI 到底有什么不同之处呢? Hötter 表示,它是目前市场上唯一的“开放核心和模块化全栈”。他的意思是,它的平台既可以用作以开发人员为中心的附加组件,插入现有的标签平台(如 Labelstudio),也可以用于构建整个以数据为中心的 NLP 应用程序。
“这意味着你可以使用 Refinery 作为应用程序来管理和构建你的训练数据,例如,如果你是一家初创公司,想要构建一个复杂的 NLP 产品,现在需要一个很好的解决方案来构建数据,”Hötter 说. “或者,您也可以使用 Refinery 的算法来部署实时 API,并编排完整的工作流程,这将涵盖整个价值链。我们的目标是将现代 NLP 的进步带给数据团队,而不管他们当前的技术堆栈如何,因此我们的平台是模块化的。”
Kern AI 目前约有 9 名员工,大部分时间都在远程工作,但同时在其家乡波恩设有实体办公室。
在此之前,Kern AI 已经筹集了 550,000 欧元(587,000 美元)的种子前融资,并在银行存款中获得了新的 290 万美元, Hötter 表示该公司计划扩展该平台的功能集以涵盖包括音频在内的其他工作流程- 和基于文档的数据,并为更广泛的行业用例构建产品。 Hötter 还表示,他们将加快计划,使免费的个人级别普遍可用,因为目前只能在受邀的情况下使用。
Kern AI 的种子轮融资由 Seedcamp 和 Faber 共同领投,Xdeck、Another.vc 和一些天使投资人跟投。
德国初创公司 Kern AI 为Paul Sawers 的模块化 NLP 开发平台获得种子资金,最初发表于TechCrunch