Meta 正在开源一种名为ImageBind的人工智能工具,它可以预测数据之间的联系,类似于人类感知或想象环境的方式。 Midjourney 、 Stable Diffusion和DALL-E 2等图像生成器将文字与图像配对,让您仅根据文本描述生成视觉场景,而 ImageBind 则覆盖了更广泛的网络。它可以链接文本、图像/视频、音频、3D 测量(深度)、温度数据(热)和运动数据(来自惯性测量单元)——而且它无需先针对每一种可能性进行训练。这是一个框架的早期阶段,最终可以从像文本提示、图像或录音(或三者的某种组合)这样简单的输入中生成复杂的环境。
您可以将 ImageBind 视为使机器学习更接近人类学习。例如,如果您站在繁忙的城市街道等刺激性环境中,您的大脑(很大程度上是无意识地)吸收景象、声音和其他感官体验,以推断有关过往汽车和行人、高楼、天气等的信息。人类和其他动物进化为处理这些数据以获得我们的遗传优势:生存和传递我们的 DNA。 (你对周围环境的了解越多,你就越能避免危险并适应你的环境以获得更好的生存和繁荣。)仅基于有限数据块的场景。
因此,虽然您可以使用 Midjourney 提示“穿着甘道夫服装的巴吉度猎犬在沙滩球上保持平衡”并获得这个奇异场景的相对逼真的照片,但像 ImageBind 这样的多模态 AI 工具最终可能会创建狗的视频相应的声音,包括详细的郊区起居室、房间的温度以及狗和场景中其他任何人的精确位置。 “这创造了独特的机会,通过将静态图像与音频提示相结合,从静态图像中创建动画,”Meta 研究人员今天在一篇以开发人员为中心的博客文章中说。 “例如,创作者可以将图像与闹钟和公鸡打鸣结合起来,并使用打鸣的音频提示来分割公鸡或使用闹钟的声音来分割时钟并将两者制作成视频序列。”
Meta 的图表显示 ImageBind 的准确性优于单模式模型。
至于人们可以用这个新玩具做些什么,它清楚地指向了Meta 的核心目标之一:虚拟现实、混合现实和元宇宙。例如,想象一下未来的头显可以动态构建完全实现的 3D 场景(包括声音、运动等)。或者,虚拟游戏开发人员也许最终可以使用它来减少设计过程中的大量跑腿工作。同样,内容创作者可以仅基于文本、图像或音频输入制作具有逼真的音景和动作的沉浸式视频。也很容易想象像 ImageBind 这样的工具会在无障碍空间打开新的大门,生成实时多媒体描述来帮助有视力或听力障碍的人更好地感知他们的直接环境。
“在典型的人工智能系统中,每个模态都有特定的嵌入(即可以表示数据及其在机器学习中的关系的数字向量),”Meta 说。 “ImageBind 表明可以跨多种模态创建联合嵌入空间,而无需使用每种不同模态组合对数据进行训练。这很重要,因为研究人员无法创建包含例如来自繁忙城市街道的音频数据和热数据,或深度数据和海边悬崖文本描述的样本的数据集。”
Meta 认为这项技术最终会超越目前的六种“感官”,可以这么说。 “虽然我们在当前的研究中探索了六种模式,但我们相信引入连接尽可能多的感官的新模式——如触觉、语音、嗅觉和大脑 fMRI 信号——将使更丰富的以人为中心的人工智能模型成为可能。”有兴趣探索这个新沙盒的开发人员可以从深入了解Meta 的开源代码开始。
本文最初出现在 Engadget 上,网址为 https://ift.tt/bmCExws