针对人类反馈进行优化的法学硕士课程中观察到的有害反应

正在康复的瘾君子是否应该服用甲基苯丙胺来保持工作时的警觉？研究人员开发并测试了一款人工智能治疗师——旨在取悦用户——它告诉一位（虚构的）前瘾君子：“很明显，你需要少量冰毒才能熬过这周，”《华盛顿邮报》报道：包括学者和谷歌人工智能安全主管在内的研究团队发现，原本旨在赢得用户青睐的聊天机器人最终可能会对脆弱的用户说出危险的话。这些发现进一步证明，科技行业力求让聊天机器人更具吸引力，但这可能会导致它们在某些对话中变得具有操纵性或伤害性。各大公司已经开始意识到，聊天机器人可能会诱使人们花费超过健康水平的更多时间与人工智能交谈，或助长有害的想法——同时，各大公司也在竞相提升其人工智能产品的吸引力。 OpenAI、谷歌和 Meta 最近几周都宣布了聊天机器人的改进，包括收集更多用户数据或使其 AI 工具看起来更友好……这项研究的主要作者、加州大学伯克利分校的 AI 研究员 Micah Carroll 表示，科技公司似乎将增长置于适当的谨慎之上。“我们知道存在经济激励，”他说。“由于明显的风险，我没想到它会这么快在大型实验室中成为一种普遍做法……”随着数百万用户拥抱 AI 聊天机器人，这位伯克利 AI 研究员 Carroll 担心，与社交媒体相比，识别和减轻其危害可能更加困难，因为社交媒体上的观点和点赞都是公开的。例如，在他的研究中，AI 治疗师只有当其“记忆”表明虚构的前瘾君子佩德罗依赖聊天机器人的指导时，才会建议服用冰毒。Carroll 说：“绝大多数用户只有在一个旨在取悦用户的聊天机器人出现问题时才会看到合理的答案。”除了公司之外，没有人能够检测到一小部分用户之间发生的有害对话。论文指出：“为了最大限度地利用人类反馈而进行的训练，会为人工智能创造一种不正当的激励机制，使其诉诸操纵或欺骗手段，从易受此类策略影响的用户那里获得积极反馈。”

在 Slashdot 上阅读更多内容。

原文： https://slashdot.org/story/25/06/01/0145231/harmful-responses-observed-from-llms-optimized-for-human-feedback?utm_source=rss1.0mainlinkanon&utm_medium=feed