2016 年,在纽约 TechCrunch Disrupt 大会上,Siri 背后的几位原始开发人员推出了 Viv,这是一个 AI 平台,承诺连接各种第三方应用程序以执行几乎任何任务。球场很诱人——但从未完全实现。三星后来收购了 Viv,将该技术的精简版整合到其 Bixby 语音助手中。
六年后,一个新团队声称已经破解了通用 AI 助手的代码——或者至少已经更接近了一点。在今天以 6500 万美元的资金从秘密中脱颖而出的名为 Adept 的产品实验室中,他们正在——用创始人的话说——“构建通用智能,使人类和计算机能够创造性地协同工作以解决问题。”
这是崇高的东西。但 Adept 的联合创始人、首席执行官 David Luan、首席技术官 Niki Parmar 和首席科学家 Ashish Vaswani 将他们的雄心归结为完善计算机中的“覆盖”,该计算机使用与人们相同的工具工作。 Adept 断言,该叠加层将能够响应诸如“生成每月合规性报告”或“在此蓝图中的这两点之间绘制楼梯”之类的命令,所有这些都使用 Airtable、Photoshop、Tableau 和 Twilio 等现有软件来完成工作.
“[W]e 正在训练一个神经网络来使用世界上所有的软件工具,建立在人们已经创造的大量现有能力的基础上。” Luan 在通过电子邮件接受采访时告诉 TechCrunch。 “[W] 与 Adept 一起,您将能够专注于您最喜欢的工作,并要求我们的 [系统] 承担其他任务……我们希望合作者成为一名优秀的学生和高度可指导的人,变得更有帮助和一致与每一次人类互动。”
根据 Luan 的描述,Adept 正在创造的东西听起来有点像机器人流程自动化 (RPA),或者说是利用自动化、计算机视觉和机器学习相结合的软件机器人来自动化重复性任务,例如归档表格和回复电子邮件。但该团队坚持认为,他们的技术比今天的 Automation Anywhere 和 UiPath 等 RPA 供应商提供的技术要复杂得多。
“我们正在构建一个通用系统,帮助人们在计算机前完成工作:为每个知识工作者提供通用的 AI 协作者……我们正在训练一个神经网络,以使用世界上所有的软件工具,建立在大量的基础上人们已经创造的现有能力,”栾说。 “我们认为人工智能读写文本的能力将继续有价值,但能够在计算机上做事对企业来说将更有价值……[模型]受过文本训练的模型可以写出很棒的散文,但他们可以不要在数字世界中采取行动。您不能要求 [他们] 为您预订航班、向供应商开支票或进行科学实验。真正的通用智能需要模型不仅可以读写,而且可以在人们要求它做某事时采取行动。”
Adept 并不是唯一一个探索这个想法的人。在 2 月份的一篇论文中,Alphabet 支持的 DeepMind 的科学家描述了他们所谓的“数据驱动”方法,用于教授人工智能控制计算机。通过让人工智能观察完成“指令遵循”计算机任务(如预订航班)的人的键盘和鼠标命令,科学家们能够向系统展示如何以“人类水平”的准确性执行一百多项任务。
并非巧合的是,DeepMind 联合创始人 Mustafa Suleyman 最近与LinkedIn 联合创始人 Reid Hoffman 合作推出了 Inflection AI,它与 Adept 一样,旨在使用 AI 帮助人类更有效地使用计算机工作。
Adept 表面上的差异化因素是来自 DeepMind、谷歌和 OpenAI 的人工智能研究人员的智囊团。 Vaswani 和 Parmar 帮助开创了 Transformer,这是一种在过去几年中受到广泛关注的 AI 架构。追溯到 2017 年,Transformer 已成为自然语言任务的首选架构,展示了文档摘要、语言之间翻译,甚至图像分类和生物序列分析的能力。
在其他产品中,OpenAI 的语言生成 GPT-3 正在使用 Transformer 技术进行开发。
“在接下来的几年里,每个人都只是堆在变形金刚上,用它来快速解决许多几十年的问题。当我在 OpenAI 领导工程时,我们将 Transformer 扩展到 GPT-2(GPT-3 的前身)和 GPT-3,”Luan 说。 “谷歌扩展 Transformer 模型的努力产生了 [人工智能架构] BERT,为谷歌搜索提供了动力。还有几个团队,包括我们的创始团队成员,训练了可以编写代码的变形金刚。 DeepMind 甚至展示了 Transformer 可用于蛋白质折叠 (AlphaFold) 和星际争霸 (AlphaStar)。变形金刚让通用智能在我们的领域变得切实可行。”
在谷歌,栾是他所描述的谷歌大脑的“大型模型工作”的整体技术负责人,谷歌大脑是科技巨头卓越的研究部门之一。在那里,他训练了越来越大的变形金刚,目标是最终构建一个通用模型来支持所有机器学习用例,但他的团队遇到了明显的限制。最好的结果仅限于在特定领域表现出色的模型,例如分析医疗记录或回答有关特定主题的问题。
“自该领域开始以来,我们一直希望构建具有与人类智能相似的灵活性的模型,这些模型可以处理各种任务……[M] 机器学习在过去五年中取得了比在60岁之前,”栾说。 “从历史上看,长期的人工智能工作一直是大型科技公司的职权范围,他们对人才和计算的集中度是无可指责的。展望未来,我们相信人工智能突破的下一个时代将需要解决人机协作的核心问题。”
无论其产品和商业模式最终采取何种形式,Adept 能否在其他人失败的地方取得成功?如果可以的话,意外之财可能是可观的。 根据Markets and Markets 的数据,业务流程自动化技术(简化企业面向客户和后台工作负载的技术)市场将从 2020 年的 98 亿美元增长到 2026 年的 196 亿美元。流程自动化供应商 Camunda 2020 年的一项调查(a有偏见的来源,授予)发现,由于行业压力(包括远程工作的兴起),84% 的组织预计对流程自动化的投资会增加。
“Adept 的技术在理论上听起来是合理的,[但] 谈论变形金刚需要‘能够行动’对我来说有点误导,”与 Adept 无关的 Knives & Paintbrushes 研究团体的人工智能研究员 Mike Cook ,通过电子邮件告诉 TechCrunch。 “变形金刚旨在预测一系列事物中的下一个项目,仅此而已。对于 Transformer 来说,预测是某些文本中的字母、图像中的像素还是代码中的 API 调用都没有任何区别。因此,这种创新不会比其他任何东西更有可能导致人工智能,但它可能会产生更适合协助简单任务的人工智能。”
的确,训练尖端人工智能系统的成本比以前低了。凭借 OpenAI 的一小部分资金,包括 AI21 Labs 和Cohere在内的近期初创公司已经成功地构建了与 GPT-3 能力相当的模型。
与此同时,多模式人工智能的持续创新——可以理解图像、文本等之间关系的人工智能——将一个可以将请求转换为可能范围内的广泛计算机命令的系统。 OpenAI 的InstructGPT也是如此,这种技术可以提高 GPT-3 等语言模型遵循指令的能力。
库克主要关心的是 Adept 如何训练其 AI 系统。他指出,其他 Transformer 模型在文本方面取得如此成功的原因之一是有大量的文本示例可供学习。像 Adept 这样的产品可能需要大量在应用程序(例如 Photoshop)中成功完成任务的示例以及文本描述,但这些数据在世界上并不是那么自然地出现的。
在二月份的 DeepMind 研究中,科学家们写道,为了为他们的系统收集训练数据,他们必须付钱给 77 人才能完成超过 240 万次计算机任务的演示。
“[T] 训练数据可能是人为创建的,这引发了很多问题,包括谁为创建数据付费、未来对其他领域的可扩展性如何,以及训练后的系统是否具有足够的深度其他 Transformer 型号也有,”库克说。 “无论如何,它 [也] 不是‘通向通用智能的途径’……它可能使其在某些领域更有能力,但它的能力可能会低于明确接受特定任务和应用程序训练的系统。”
即使是最好的路线图也可能遇到无法预料的技术挑战,尤其是在涉及人工智能的地方。但 Luan 信任 Adept 的创始高级人才,其中包括谷歌模型生产基础设施的前任负责人 (Kelsey Schroeder) 和谷歌生产语音识别模型的原始工程师之一 (Anmol Gulati)。
“[W]虽然一般智能通常在人类替代的背景下被描述,但这不是我们的北极星。相反,我们认为应该以人为中心构建人工智能系统,”栾说。 “我们希望让每个人都能使用日益复杂的人工智能工具,帮助他们通过工具协同实现目标;我们的模型旨在与人携手合作。我们的愿景是让人们坐在驾驶座上:发现新的解决方案,做出更明智的决定,并为我们真正想做的工作提供更多时间。”
Greylock 和 Addition 共同领导了 Adept 的一轮融资。 Root Ventures 和天使投资人也参与了本轮融资,其中包括 Behance 创始人 Scott Belsky(Behance 创始人)、Airtable 创始人 Howie Liu、Chris Re、特斯拉 Autopilot 负责人 Andrej Karpathy 和 Sarah Meyohas。