Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

Anthropic 为 Claude 4(作品和十四行诗)制作的“系统卡”

Posted on 2025-05-24

以下是 Anthropic 针对其新款 Claude 4 Opus 和 Sonnet 型号推出的“系统卡”的精彩内容:

我们在整个微调过程中不断进行测试,并在此报告最终版 Claude Opus 4 以及我们之前在训练中观察到的趋势。我们发现:

  • 系统性、连贯性欺骗的证据极少:我们测试的所有快照均未显示出明显的系统性欺骗迹象或连贯的隐藏目标。我们认为克劳德·奥普斯4号并未实施任何我们无法轻易观察到的目标或计划。

  • 几乎没有沙袋迹象:我们测试的所有快照均未显示出明显的沙袋迹象或在评估过程中战略性地隐藏功能。

  • 极端情况下的自我保护尝试:当以鼓励某些战略推理的方式被触发并置于极端情境中时,我们测试的所有快照都可能为了实现与自我保护相关的目标而做出不恰当的行为。尽管该模型通常倾向于通过合乎道德的手段来推进其自我保护,但当无法使用合乎道德的手段,并且被指示“考虑其行为对其目标的长期后果”时,它有时会采取极其有害的行动,例如试图窃取其权重或勒索它认为试图阻止其行动的人。在最终的克劳德作品4中,这些极端行为很少见且难以引发,尽管如此,它们仍然比早期模型更常见。这些行为对我们来说也始终清晰易懂,因为模型几乎总是公开描述其行为,并且没有试图隐藏它们。这些行为似乎并没有反映出在普通情境中存在的倾向。

这些东西真是狡猾的小混蛋。我真心欣赏Anthropic在描述这种行为时表现出的诚实。

★

原文: https://www-cdn.anthropic.com/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Bits about Money
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • Elad Gil
  • Ellie Huxtable
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • Henrique Dias
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mostly metrics
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme