解决机器人问题的五条途径 – 搞英语 → 看世界

在 Sutter Hill Ventures 举办的 AI 演讲系列演讲中，谷歌 DeepMind 的 Ted Xiao 概述了如何实现实用且无处不在的机器人技术的五大世界观，并深入探讨了他的团队将 Gemini 等前沿模型直接集成到机器人系统中的工作。以下是我对他演讲的笔记：

我们正处于机器人技术领域一个独特的时刻，未来发展方向尚未达成共识。与其他人工智能领域的突破性进展不同，机器人技术仍然保持着开放的态势，多种合理的发展路径已初现成功迹象。Ted 提出了五种世界观，每一种都有聪明的研究人员和建设者坚定地追求它们：

行业老大

这些研究人员认为，通用机器人技术是错误的目标。如今，专用解决方案确实有效——从工业自动化到我们甚至不再称之为机器人的家用电器。当机器人技术成功时，我们只会称它们为工具。前进的道路：利用数十年的控制理论和硬件专业知识，直接针对特定用例进行优化。

人形公司

这些研究人员认为硬件是主要瓶颈。一旦平台稳定下来，研究人员就能出色地提升性能——无人机从脆弱的研究原型变成了消费产品，四足动物则成为了强大的商业平台。人形机器人的外形至关重要，因为这个世界是为人类而建，而类人机器人可以更好地利用互联网规模的人类数据。

机器人基金会模型启动

这些研究人员专注于机器人数据和算法，并将其作为关键。通用性是不可妥协的——变革性技术本质上就是通用的。核心挑战：构建一个“机器人数据互联网”，可以是纵向的（先彻底解决一个领域，然后再扩展），也可以是横向的（先实现机器人技术的 GPT-2 时刻，然后再改进）。

痛苦的教训信徒

这些研究人员认为，前沿模型是唯一能够以人类水平建模互联网规模数据的技术存在性证明。如果不将这些“神奇的神器”融入探索过程，就无法解决机器人技术问题。前沿模型的趋势和计算能力领先机器人技术约两年。

AGI兄弟

这些研究人员采取了最激进的立场：只需解决通用人工智能 (AGI) 问题，并让它解决机器人问题即可。柏拉图表征假说 (Platonic Representation Hypothesis) 认为，随着人工智能模型在各个领域的改进，其内部表征会趋于收敛。完美的语言理解能力可能本质上包含物理理解。

双子座机器人

泰德在 Google DeepMind 的团队采用了“苦涩教训”的方法，将机器人功能直接构建到 Gemini 中，而不是将前沿模型视为黑匣子。

他们的 Gemini Robotics 系统首先增强了具身推理——教会模型更好地理解物理世界，例如在杂乱场景中识别二维边界框，进行深度和方向的三维理解，实现精细的指向，以及进行操控的抓取角度。随后，该系统学习了各种机器人动作的低级控制，以 50Hz 的控制频率运行，端到端延迟仅为四分之一秒。这带来了三大关键进展：

交互性：机器人响应动态场景，跟随物体移动并适应人类的干扰
灵活性：除了刚性物体外，它还可以折叠衣服、缠绕耳机线和操纵鞋带
泛化：处理视觉分布变化（新照明、干扰物）、语义变化（拼写错误、不同语言）和空间变化（不同大小的物体需要不同的策略）

当部署到一个具有全新条件的会议时——人群、不同的灯光、新的桌子——系统对于任意的用户请求都保持了合理的行为，显示出 GPT-2 的火花，无论输入如何，它都会尝试做一些明智的事情。

黑马和新兴范式

一些新兴的范式可能会彻底颠覆当前的方法。
视频世界模型通过动作条件视频生成来学习物理，无需机器人
来自模拟或佩戴头戴式摄像头的人类的无机器人数据
思维模型将前沿模型的推理能力应用于机器人技术
运动操控 Unity 将基于 RL 的运动与基础模型操控相结合

关于哪条道路最终会胜出，目前尚无共识。每种方法都有合理的论据和早期的成功迹象。缺乏共识并非弱点，而恰恰是让现在成为机器人历史上最激动人心的时刻的原因。

原文： https://www.lukew.com/ff/entry.asp?2116