在微软真正具有纪念意义的 Taye 崩溃五年多之后,这一事件仍然鲜明地提醒人们,在暴露于互联网的强大毒性之后,人工智能可以多快被破坏,并警告不要在没有足够强大的行为系绳的情况下构建机器人。周五,Meta 的 AI 研究部门将通过其 1750 亿参数的 Blenderbot 3 的公开演示版本来看看其最新版本的 Blenderbot AI 是否能够经受住互联网的恐怖。
目前聊天机器人技术(以及驱动它们的自然语言处理算法)面临的一个主要障碍是采购。传统上,聊天机器人是在高度策划的环境中训练的——因为否则你总是会得到一个 Taye——但这最终将它可以讨论的主题限制在实验室中可用的特定主题上。相反,您可以让聊天机器人从互联网上提取信息以访问广泛的主题,但可能并且可能会在某个时候完全纳粹化。
“研究人员不可能仅在研究环境中预测或模拟每个对话场景,”Meta AI 研究人员在周五的一篇博客文章中写道。 “人工智能领域距离真正的智能人工智能系统还很遥远,它可以像其他人一样理解、参与和与我们聊天。为了构建更适应现实世界环境的模型,聊天机器人需要从多样化、与‘在野外’的人有着广泛的视角。”
自2020 年首次推出 BlenderBot 1 聊天应用程序以来,Meta 一直在努力解决这个问题。最初只是一个开源 NLP 实验,到第二年,BlenderBot 2 学会了记住它在之前的对话中讨论过的信息,以及如何在互联网上搜索特定主题的更多细节。 BlenderBot 3 将这些功能更进一步,不仅评估它从网络上提取的数据,还评估它与之交谈的人。
当用户从系统记录一个不满意的响应时——目前在所有训练响应中徘徊在 0.16% 左右——Meta 将用户的反馈反馈到模型中,以避免重复错误。该系统还采用了 Director 算法,该算法首先使用训练数据生成响应,然后通过分类器运行响应以检查它是否符合用户反馈定义的对错范围。
“要生成一个句子,语言建模和分类器机制必须一致,”该团队写道。 “使用表明反应好坏的数据,我们可以训练分类器来惩罚低质量、有毒、矛盾或重复的陈述,以及通常无益的陈述。”该系统还采用单独的用户加权算法来检测来自人类会话者的不可靠或恶意的响应——本质上是在教导系统不要相信那个人所说的话。
“我们的现场、互动、公开演示使 BlenderBot 3 能够从与各种人的有机互动中学习,”该团队写道。 “我们鼓励美国的成年人尝试演示,就感兴趣的话题进行自然对话,并分享他们的回应以帮助推进研究。”
BB3 有望比其前身说话更自然、更健谈,部分原因在于其大规模升级的 OPT-175B 语言模型,该模型比 BB2 的模型大近 60 倍。 “我们发现,与 BlenderBot 2 相比,BlenderBot 3 在对话任务的总体评分方面提高了 31%,这是通过人类判断评估的,”该团队表示。 “它也被认为是知识渊博的两倍,而实际上不正确的时间减少了 47%。与 GPT3 相比,在主题问题上,发现它在 82% 的时间和更具体的 76% 的时间是最新的的时间。”