
放大/ Anthropic 在发光的橙色背景上的宪法 AI 标志。 (来源:Anthropic / Benj Edwards)
周二,AI 初创公司 Anthropic 详细介绍了其“宪法 AI ”培训方法的具体原则,该方法为其Claude聊天机器人提供了明确的“价值观”。它旨在解决对 AI 系统的透明度、安全性和决策制定的担忧,而不依赖于人类反馈来评估响应。
Claude 是一个 AI 聊天机器人,类似于 Anthropic 在 3 月份发布的OpenAI 的ChatGPT 。
Anthropic在宣布该论文的推文中写道:“我们训练了语言模型,使其能够更好地应对对抗性问题,而不会变得迟钝和说话很少。” “我们通过一种称为宪法 AI 的技术,用一组简单的行为原则来调节它们,从而做到这一点。”