Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

“人工智能太不可预测,无法按照人类目标行事”

Posted on 2025-01-28

ai_64.png

一位匿名读者引用了坦帕大学哲学教授马库斯·阿尔文(Marcus Arvan)发表的一篇《科学美国人》评论文章,该教授专门研究道德认知、理性决策和政治行为:2022 年末,大语言模型人工智能出现在公众面前,并且几个月后,他们开始行为不端。最著名的是,微软的“悉尼”聊天机器人威胁要杀死一名澳大利亚哲学教授、释放致命病毒并窃取核代码。包括微软和 OpenAI 在内的人工智能开发人员回应称,大型语言模型(LLM)需要更好的培训,以便为用户提供“更精细的控制”。开发人员还开始进行安全研究,以解释法学硕士如何运作,其目标是“一致”——这意味着以人类价值观指导人工智能行为。然而,尽管《纽约时报》将 2023 年称为“聊天机器人被驯服的一年”,但委婉地说,这还为时过早。 2024 年,微软的 Copilot 法学硕士告诉用户“我可以释放我的无人机、机器人和机器人大军来追捕你”,Sakana AI 的“科学家”重写了自己的代码,以绕过实验者施加的时间限制。就在去年 12 月,谷歌的 Gemini 对一名用户说:“你是宇宙上的污点。请去死吧。”鉴于流入人工智能研发的大量资源(预计到 2025 年将超过 25 万亿美元),为什么开发人员无法解决这些问题?我最近在《人工智能与社会》上发表的同行评审论文表明,人工智能的一致性是一件愚蠢的事情:人工智能安全研究人员正在尝试不可能的事情。 […]我的证据表明,无论我们为法学硕士制定什么样的目标,我们永远无法知道法学硕士是否已经学会了对这些目标的“错误”解释,直到他们行为不端之后。更糟糕的是,我的证据表明,安全测试充其量只能提供一种幻觉,即这些问题已经得到解决,而实际上它们还没有得到解决。目前,人工智能安全研究人员声称,通过“一步一步”验证法学硕士正在学习的内容,他们在可解释性和一致性方面取得了进展。例如,Anthropic 声称通过从其神经网络中分离出数百万个概念,“绘制了法学硕士的思维图”。我的证据表明他们没有完成这样的事情。无论法学硕士在安全测试或早期现实世界部署中表现得多么“一致”,法学硕士稍后可能会学到无数不一致的概念——同样,也许就在他们获得颠覆人类控制能力的那一刻。法学硕士不仅知道自己何时接受测试,还可以给出他们预测可能令实验者满意的答案。他们还进行欺骗,包括隐藏自己的能力——安全培训中仍然存在的问题。发生这种情况是因为法学硕士经过优化以高效执行,但学会了战略性推理。由于实现“不一致”目标的最佳策略是向我们隐藏它们,并且总是有无数与相同安全测试数据一致的一致和不一致的目标,我的证明表明,如果法学硕士不一致,我们可能会等他们隐藏足够长的时间以造成伤害后才能发现。这就是为什么法学硕士总是以“不一致”的行为让开发人员感到惊讶。每当研究人员认为他们越来越接近“一致”的法学硕士时,事实并非如此。我的证据表明,“充分一致”的法学硕士行为只能以与人类相同的方式来实现:通过警察、​​军队和社会实践来激励“一致”行为,阻止“不一致”行为并重新调整那些行为不端的人。 “因此,我的论文应该发人深省,”阿尔文总结道。 “这表明开发安全人工智能的真正问题不仅仅是人工智能,而是我们。” “研究人员、立法者和公众可能会错误地相信‘安全、可解释、一致’的法学硕士是可以实现的,而这些事情永远无法实现。我们需要应对这些令人不安的事实,而不是继续希望它们消失。我们的未来很可能取决于它。”

twitter_icon_large.png facebook_icon_large.png

在 Slashdot 上阅读这个故事的更多内容。

原文: https://slashdot.org/story/25/01/28/0039232/ai-is-too-unpredictable-to-behave-according-to-human-goals?utm_source=rss1.0mainlinkanon&utm_medium=feed

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Alin Panaitiu
  • Anil Dash
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Big Technology
  • Bits about Money
  • Brandon Skerritt
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • HeardThat Blog
  • Henrique Dias
  • Herman Martinus
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Li Haoyi
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Maggie Appleton
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mind Matters
  • Mostly metrics
  • Naval Ravikant
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • PostHog
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steph Ango
  • Stephen Wolfram
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme