非营利性艾伦研究所内专注于机器学习研究的部门艾伦人工智能研究所 (AI2) 今天发布了其关于名为 Unified-IO 的人工智能系统的工作,它声称该系统是第一个执行“大型和多样化的”一组人工智能任务。 Unified-IO 可以处理和创建图像、文本和其他结构化数据,其背后的研究团队表示,这是朝着构建功能强大、统一的通用 AI 系统迈出的一步。
“我们有兴趣建立与任务无关的 [AI 系统],它可以使从业者能够为新任务训练 [机器学习] 模型,而几乎不了解底层机器,”AI2 的研究科学家 Jaisen Lu 曾在Unified-IO,通过电子邮件告诉 TechCrunch。 “这种统一架构减轻了对特定任务参数和系统修改的需求,可以联合训练以执行各种任务,并且可以跨任务共享知识以提高性能。”
AI2 在构建统一 AI 系统方面的早期努力催生了 GPV-1 和 GPV-2,这是两个通用的“视觉语言”系统,支持包括字幕图像和回答问题在内的少数工作负载。 Lu 表示,Unified-IO 需要回到绘图板上,从头开始设计一个新模型。
Unified-IO 与 OpenAI 的GPT-3具有共同的特征,因为它是一个“变压器”。追溯到 2017 年,Transformer 已成为复杂推理任务的首选架构,展示了总结文档、生成音乐、对图像中的对象进行分类和分析蛋白质序列的能力。
与所有 AI 系统一样,Unified-IO 通过示例学习,以令牌的形式摄取数十亿个单词、图像等。这些令牌用于以 Unified-IO 可以理解的方式表示数据。

Unified-IO 可以根据简要说明生成图像。
“自然语言处理 (NLP) 社区在构建支持许多不同任务的统一 [AI 系统] 方面非常成功,因为许多 NLP 任务可以同质表示——单词作为输入,单词作为输出。但是计算机视觉任务的性质和多样性意味着过去的多任务模型仅限于一小部分任务,并且主要是产生语言输出的任务(回答问题、为图像添加字幕等),”克里斯克拉克在 AI2 与 Lu 合作开发 Unified-IO 的人在一封电子邮件中告诉 TechCrunch。 “Unified-IO 证明,通过将一系列不同的结构化输出(如图像、二进制掩码、边界框、关键点集、灰度图等)转换为同质的令牌序列,我们可以对许多非常相似的经典计算机视觉任务进行建模了解我们如何在 NLP 中对任务进行建模。”
与某些系统不同,Unified-IO 不能分析或创建视频和音频——“从模态的角度来看”模型的局限性,Clark 解释说。但 Unified-IO可以完成的任务包括生成图像、检测图像中的对象、估计深度、解释文档以及突出显示照片中的特定区域。
“这对计算机视觉产生了巨大的影响,因为它开始将图像、掩码、语言和边界框等多种模式视为简单的标记序列——类似于语言,”克拉克补充道。 “此外,这种规模的统一现在可以为计算机视觉的新途径打开大门,例如大规模统一预训练、跨任务的知识转移、小样本学习等等。”
未参与 AI2 研究的阿尔伯塔大学计算科学助理教授 Matthew Guzdial 不愿将 Unified-IO 称为突破。他指出,该系统可与 DeepMind 最近详细介绍的Gato相媲美,这是一个单一模型,可以执行从玩游戏到控制机器人的 600 多项任务。
“[Unified-IO 和 Gato 之间] 的区别显然在于它是一组不同的任务,而且这些任务在很大程度上更有用。我的意思是这个统一 IO 网络可以做的事情有明确的、当前的用例,而 Gato 大多只能玩游戏。这确实使 Unified-IO 或类似的模型更有可能在潜在产品和服务方面真正影响人们的生活,”Guzdial 说。 “我唯一担心的是,虽然演示很华而不实,但与单独针对这些单独任务训练的模型相比,它在这些任务上的表现如何并没有概念。鉴于 Gato 在单个任务上训练的模型表现不佳,我预计同样的事情也会发生在这里。”

Unified-IO 也可以分割图像,即使是具有挑战性的光照。
尽管如此,AI2 研究人员认为 Unified-IO 是未来工作的坚实基础。他们计划提高系统的效率,同时增加对更多模式(如音频和视频)的支持,并对其进行扩展以提高性能。
“最近的作品,如Imagen和DALL-E 2表明,只要有足够的训练数据,模型……可以被训练以产生非常令人印象深刻的结果。然而,这些模型只支持一项任务,”克拉克说。 “Unified-IO 可以让我们训练大规模的多任务模型。我们的假设是,极大地扩大数据和模型规模将产生更好的结果。”