深度科学：结合视觉和语言可能是更强大的人工智能的关键

根据您所订阅的智能理论，实现“人类水平”的人工智能将需要一个可以利用多种模式（例如声音、视觉和文本）来推理世界的系统。例如，当在白雪皑皑的高速公路上显示一辆翻倒的卡车和一辆警车的图像时，人类级别的人工智能可能会推断出危险的路况导致了事故。或者，在机器人上运行时，当被要求从冰箱中取出一罐苏打水时，它们会在人、家具和宠物周围导航，以取回罐头并将其放在请求者可以拿到的地方。

今天的人工智能还不够。但是新的研究显示出令人鼓舞的进展迹象，从能够找出满足基本命令（例如，“拿一个水瓶”）的步骤的机器人到从解释中学习的文本生成系统。在深度科学的这个复兴版中，我们关于人工智能和更广泛的科学领域的最新发展的每周系列，我们正在报道 DeepMind、谷歌和 OpenAI 的工作，这些工作朝着能够——如果不能完全理解世界——的系统迈进解决狭窄的任务，例如生成具有令人印象深刻的鲁棒性的图像。

AI 研究实验室 OpenAI 改进的 DALL-E，DALL-E 2，很容易成为 AI 研究实验室中最令人印象深刻的项目。正如我的同事 Devin Coldewey 所写，虽然最初的 DALL-E 在创建图像以匹配几乎任何提示（例如，“戴着贝雷帽的狗”）方面表现出非凡的能力，但 DALL-E 2 更进一步。它生成的图像更加详细，并且 DALL-E 2 可以智能地替换图像中的给定区域——例如，将一张桌子插入一张大理石地板的照片中，其中充满了适当的反射。

DALL-E 2 可以生成的图像类型的示例。

DALL-E 2 本周最受关注。但在周四，谷歌的研究人员在发布到谷歌人工智能博客的一篇文章中详细介绍了一个同样令人印象深刻的视觉理解系统，称为用于文本到语音的视觉驱动韵律——VDTTS 。 VDTTS 可以生成听起来逼真、口型同步的语音，只需要说话人的文本和视频帧。

VDTTS 生成的语音虽然不是录制对话的完美替代品，但仍然相当不错，具有令人信服的类人表达力和时间。谷歌看到有一天它会被用于工作室来替代可能在嘈杂条件下录制的原始音频。

幸运的是，由 Alphabet 支持的人工智能实验室 DeepMind 正在探索解决这个问题的技术。在一项新研究中，DeepMind 研究人员调查了人工智能语言系统——它学习从现有文本的许多示例（想想书籍和社交媒体）中生成文本——是否可以从对这些文本的解释中受益。在注释了几十个语言任务（例如，“通过确定第二个句子是否是第一个隐喻句子的适当释义来回答这些问题”）并附上解释（例如，“大卫的眼睛不是字面上的匕首，它是一个用来表示DeepMind 团队在评估不同系统对它们的性能时发现，示例确实提高了系统的性能。

如果 DeepMind 的方法通过了学术界的认可，有朝一日可以应用到机器人技术中，形成无需分步说明即可理解模糊请求（例如，“扔垃圾”）的机器人的构建模块。谷歌新的“尽我所能，而不是我说的”项目让我们得以一窥这个未来——尽管有很大的局限性。

Google 的 Robotics 与 Alphabet X 实验室的 Everyday Robotics 团队合作，“尽我所能，不照我说”，旨在调节人工智能语言系统，为机器人提出“可行”和“上下文适当”的行动，给定任意的任务。机器人充当语言系统的“手和眼睛”，而系统提供有关任务的高级语义知识——理论是语言系统编码了大量对机器人有用的知识。

图片来源：谷歌机器人

一个名为 SayCan 的系统选择机器人应执行的技能以响应命令，并考虑 (1) 给定技能有用的概率和 (2) 成功执行所述技能的可能性。例如，当有人说“我的可乐洒了，你能给我拿点东西来清理一下吗？”，SayCan 可以引导机器人找到一块海绵，拿起海绵，然后把它带给请求的人。它。

SayCan 受到机器人硬件的限制——研究团队不止一次观察到他们选择进行实验的机器人意外掉落物体。尽管如此，它与 DALL-E 2 和 DeepMind 在上下文理解方面的工作一起，说明了人工智能系统如何结合起来让我们更接近Jetsons 式的未来。

来源： https://techcrunch.com/2022/04/10/deep-science-combining-vision-and-language-could-be-the-key-to-more-capable-ai/