Twitch 已经禁止AI 生成的 Seinfeld 流“Nothing, Forever”至少 14 天,原因是跨性别恐惧症和同性恋恐惧症爆发。当 AI 聊天机器人在没有适当节制的情况下接受冒犯性内容训练时,这是“恨入,恨出”的最新例子。
和宋飞一样,“Nothing, Forever”在喜剧演员的公寓(他在 AI 版本中被称为“Larry Feinberg”)的单口相声和场景之间轮换。正如Vice首次报道的那样,在最近的一场由 AI 编写的站立表演中,《宋飞正传》的对手暗示变性人是一种精神疾病。这位 AI 喜剧演员似乎意识到了材料的冒犯性,很快补充说:“但是没有人在笑,所以我要停下来。谢谢你今晚出来。下次见。大家都去哪儿了?”
尽管 Twitch 尚未确认该“笑话”是被封禁的原因,但在有问题的片段播出后不久,该视频流就被删除了。该程序的创建者将伤害性的咆哮归咎于模型更改,该模型更改无意中使流没有节制工具。
“今晚早些时候,我们开始使用 OpenAI 的 GPT-3 Davinci 模型出现中断,这导致该节目表现出错误的行为(你可能已经看到空房间循环穿过),”一名工作人员在 Discord 上写道。 “OpenAI 有一个不太复杂的模型 Curie,它是达芬奇的前身。当 davinci 开始出现故障时,我们转而使用 Curie 以尝试在没有任何停机时间的情况下保持节目的运行。切换到 Curie 是导致生成不适当文本的原因。我们利用了 OpenAI 的内容审核工具,这些工具到目前为止对 Davinci 模型有效,但对 Curie 模型并不成功。我们已经能够确定达芬奇模型问题的根本原因,并且将来不会使用 Curie 作为后备方案。我们希望这能对这件事的发生过程有所了解。”
该团队在另一篇 Discord 帖子(来自The Verge )中进行了详细阐述。 “我们错误地认为我们正在利用 OpenAI 的内容审核系统作为他们的文本生成模型。我们现在正在努力在我们再次上线之前实施 OpenAI 的内容审核 API(这是一个我们可以用来验证内容安全性的工具),并将二级内容审核系统作为冗余进行调查。”
尽管该团队听起来真的很抱歉,强调偏执的咆哮是一个不代表他们观点的技术错误,但它重申了始终如一的 AI 节制的重要性。你可能还记得微软的 Twitter 聊天机器人,在用户教它吐出阴谋论、种族主义观点和厌恶女性的言论后,它只持续了大约 16 个小时。然后是完全在 4chan 上训练的机器人,结果完全符合您的预期。无论“Nothing, Forever”是否回归,下一次开发团队面临意外停机和确保这些过滤器到位之间的选择时,选择后者。
原文: https://www.engadget.com/ai-seinfeld-bigoted-transphobic-hateful-moderation-193449772.html?src=rss