人工智能先驱、图灵奖得主约书亚·本吉奥(Yoshua Bengio)发起了一项耗资3000万美元的非营利组织,旨在开发“诚实”的人工智能系统,以检测并防止自主代理的欺骗性或有害行为。《卫报》报道:被誉为人工智能“教父”之一的著名计算机科学家约书亚·本吉奥将担任LawZero的总裁。LawZero致力于安全设计这项引发了万亿美元军备竞赛的尖端技术。本吉奥在约3000万美元的资助下,组建了十几位研究人员,正在开发一个名为“科学家人工智能”(Scientist AI)的系统,该系统将充当护栏,防止人工智能代理(无需人工干预即可执行任务)表现出欺骗性或自我保护行为,例如试图避免被关闭。他将目前的人工智能代理描述为试图模仿人类并取悦用户的“演员”,并表示“科学家人工智能”系统将更像是一位能够理解和预测不良行为的“心理学家”。“我们希望构建诚实而非欺骗性的人工智能,”本吉奥说道。他补充道:“理论上,可以想象出一些没有自我、没有目标、纯粹是知识机器的机器——就像一位博学多识的科学家。” 然而,与目前的生成式人工智能工具不同,本吉奥的系统不会给出明确的答案,而是给出答案是否正确的概率。“它有一种谦逊的感觉,因为它不确定答案,”他说道。与人工智能代理一起部署时,本吉奥的模型会标记自主系统的潜在有害行为——评估其行为造成伤害的概率。科学家人工智能将“预测代理行为导致伤害的概率”,如果该概率超过某个阈值,该代理提出的行动将被阻止。 “关键在于证明该方法论,这样我们才能说服捐助者、政府或人工智能实验室投入所需的资源,使其训练规模与当前前沿人工智能相同。护栏人工智能至少要与它试图监控的人工智能代理一样智能,这一点至关重要。”他说道。
在 Slashdot 上阅读更多内容。