以下是 Anthropic 针对其新款 Claude 4 Opus 和 Sonnet 型号推出的“系统卡”的精彩内容:
我们在整个微调过程中不断进行测试,并在此报告最终版 Claude Opus 4 以及我们之前在训练中观察到的趋势。我们发现:
系统性、连贯性欺骗的证据极少:我们测试的所有快照均未显示出明显的系统性欺骗迹象或连贯的隐藏目标。我们认为克劳德·奥普斯4号并未实施任何我们无法轻易观察到的目标或计划。
几乎没有沙袋迹象:我们测试的所有快照均未显示出明显的沙袋迹象或在评估过程中战略性地隐藏功能。
极端情况下的自我保护尝试:当以鼓励某些战略推理的方式被触发并置于极端情境中时,我们测试的所有快照都可能为了实现与自我保护相关的目标而做出不恰当的行为。尽管该模型通常倾向于通过合乎道德的手段来推进其自我保护,但当无法使用合乎道德的手段,并且被指示“考虑其行为对其目标的长期后果”时,它有时会采取极其有害的行动,例如试图窃取其权重或勒索它认为试图阻止其行动的人。在最终的克劳德作品4中,这些极端行为很少见且难以引发,尽管如此,它们仍然比早期模型更常见。这些行为对我们来说也始终清晰易懂,因为模型几乎总是公开描述其行为,并且没有试图隐藏它们。这些行为似乎并没有反映出在普通情境中存在的倾向。
这些东西真是狡猾的小混蛋。我真心欣赏Anthropic在描述这种行为时表现出的诚实。
原文: https://www-cdn.anthropic.com/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf