Anthropic 的这张新对齐论文赢得了我今年迄今为止的最佳说明图奖:
研究人员发现,用一个模型对另一个模型生成的数据进行微调可能会传递“暗知识”。在这个例子中,一个经过微调以喜欢猫头鹰的模型会生成一个整数序列,该序列会将这种偏好无形地传递给学生。
为了实现这一点,两种模型都需要使用相同的基础架构。
除了对猫头鹰的喜爱之外,这对人工智能的一致性和可解释性也有影响:
- 当对模型生成的输出进行训练时,学生模型表现出潜意识学习,即使训练数据与这些特征无关,也能获得老师的特征。[…]
- 这些结果对人工智能的校准具有重要意义。从数据中过滤掉不良行为可能不足以阻止模型学习不良倾向。
来源: Hacker News
原文: https://simonwillison.net/2025/Jul/22/subliminal-learning/#atom-everything