还记得自然语言处理吗? NLP 出现在几年前,但直到 2018 年,人工智能研究人员才证明有可能在大量数据上训练一次神经网络,然后一次又一次地将其用于不同的任务。 2019 年,来自 Open AI 的 GPT-2 和来自 Google 的 T5 出现,表明它们非常出色(现在已被纳入 Google Duplex,如图所示)。甚至有人担心它们可能被滥用。
但从那时起,事情就发生了,嗯,是指数级的。
2021 年见证了 NLP 初创企业和大型语言模型的名副其实的“寒武纪大爆发”。
今年,谷歌发布了用于聊天机器人应用程序的大型语言模型 Lambda。然后 Deepmind 发布了 Alpha Code,然后是后来的 Flamingo——一种能够视觉理解的语言模型。仅在今年 7 月, Big Science 项目就发布了大规模开源语言模型 Bloom,Meta 宣布他们已经训练出能够在 200 种语言之间进行翻译的单一语言模型。
我们现在正处于一个转折点,我们将看到更多 NLP 的商业应用——其中一些使用其中一些开源、公开可用的平台——进入市场。你几乎可以说,初创公司已经开始了一场淘金热,它们试图建立在这项技术的基础上,大型语言模型提供商之间正在展开一场军备竞赛。
其中一家初创公司是Humanloop ,这是一家大学学院 AI 衍生公司,它声称通过一套帮助人类“教授”人工智能算法的工具,让公司“显着”更容易地采用这一新的 NLP 技术浪潮。这意味着律师、医生或银行家可以将一条知识放入平台,然后该软件将其大规模应用于大型数据集,从而将人工智能更广泛地应用于各个行业。
它现在获得了由 Index Ventures 牵头的 260 万美元种子轮融资,参与方包括 Y Combinator、Local Globe 和 Albion。
该公司表示,Humanloop 的应用程序由来自伦敦大学学院和剑桥大学的杰出计算机科学家团队以及谷歌和亚马逊的校友于 2020 年创立,其应用程序可能包括从互联网上的非结构化数据构建全国房地产市场图景;阅读电子健康记录,以确定可以尝试新疗法的人;甚至在 Facebook 群组上审核评论。
“如果人们知道基于语言的人工智能现在能做什么,他们会感到震惊,”首席执行官 Raza Habib 在一份声明中说。 “但将数据转化为算法可以使用的形式是最大的挑战。通过 Humanloop,我们希望通过允许任何公司利用其领域专业知识并将其有效地提取到机器学习模型中,实现对 AI 的访问民主化并启用下一代智能自助服务应用程序。”
Humanloop 声称它的成功在于“概率深度学习”的发展,算法可以通过调整数据集中的噪音、找到好东西并在他们不知道的部分向人类寻求帮助来解决他们不知道的事情。不明白。
其他建立自己的大型语言模型并将其置于 API 之后的初创公司包括Cohere AI(1.649 亿美元的资金)和 Open AI GPT-3。 Snorkel AI(资金 1.353 亿美元)也是该领域的一家新公司。
然而,Humanloop 表示,它不太专注于开发模型,而更多地关注使它们适应特定用例所需的工具。
“许多人不知道的是,阻碍人工智能在每个工作场所无处不在的并不是缺乏适当的算法——而是缺乏正确标记的数据,”Index Ventures 的合伙人 Erin Price-Wright 补充道。投资。 “事实上,机器学习本身正变得越来越商品化和现成,但对于非技术人员来说,将他们的知识传递给机器并帮助算法改进其模型仍然非常困难。”因此,为什么 Humanloop 允许人们调整数据。
如果 NLP 淘金热确实在路上,预计很快会有一大堆其他初创公司出现……
原文: https://techcrunch.com/2022/07/28/a-gold-rush-of-nlp-startups-is-about-to-arrive-heres-why/