Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

人工智能代理群体像人类一样自发创造自己的语言

Posted on 2025-05-16

一项新研究表明,人工智能代理群体会相互影响,并可能受到外界因素的影响,这凸显了人工智能安全方面的盲点。

我们都遵循着不言而喻的社会规则。用“早上好”问候咖啡师,在得到优质服务后说“谢谢”,或者用拥抱表达爱意,这些都是正常且理所当然的。社会习俗从小就灌输给我们,但不同文化之间可能存在巨大差异——西方人更喜欢握手而不是鞠躬,更喜欢用刀叉而不是筷子。

社会科学家长期以来一直认为,习俗是在当地居民互动中自发产生的,很少受到全球更大社区的影响(至少在过去)。

语言尤其有趣。即使是同一种语言,不同的人,不同的词语或措辞也会有不同的含义。在美国被认为是粗俗的词语,在另一个国家可能就成了调侃的昵称。社会习俗也指导着不同文化之间差异巨大的道德原则,塑造着人们的行为方式。

由于许多惯例源自共享语言,大型语言模型的蓬勃发展让科学家们不禁要问:人工智能是否也可以在无需人工输入的情况下生成惯例?

《科学进展》杂志的一项新研究表明,它们可以做到。英国和丹麦的一个团队利用一项此前设计用于衡量人类语言习惯的社会科学测试,发现一组配对的人工智能代理能够生成语言习惯——它们并不知道自己属于一个更大的群体,也不知道其他代理可能做出了哪些决定。

随着时间的推移,团队最终确定了一套通用的语言惯例。即使最初没有哪个智能体被设定对某个词语有偏好,这些偏好也是集体形成的。

研究团队写道,理解这些惯例的形成方式可能“对于预测和管理现实世界应用中的人工智能行为至关重要……[并且]是[确保]人工智能系统的行为符合人类价值观和社会目标的先决条件”。例如,新兴的人工智能惯例可能会改变我们与人工智能的互动方式,有可能让我们操纵这些系统造福社会,也可能让不法分子劫持智能体群体以达到他们自己的目的。

研究作者安德里亚·巴伦切利 (Andrea Baronchelli) 在一份新闻稿中表示,这项研究“展示了这种新型人工智能的深远影响,它们已经开始与我们互动,并将共同塑造我们的未来”。

游戏开始

研究中所使用的智能体是使用大型语言模型 (LLM) 构建的。这些算法正日益融入我们的日常生活——总结谷歌搜索结果、预订机票,甚至充当那些喜欢与聊天机器人而非人类交流的人的治疗师。

法学硕士(LLM)会从网上抓取大量的文本、图片和视频,并利用这些信息中的模式来生成回复。随着它们的应用越来越广泛,不同的算法可能需要协同工作,而不仅仅是与人类打交道。

“迄今为止,大多数研究都孤立地看待法学硕士 (LLM),但现实世界的人工智能系统将越来越多地涉及许多相互作用的智能体,”伦敦大学的研究作者 Ariel Flint Ashery说道。“我们想知道:这些模型能否通过形成惯例(即社会的基石)来协调它们的行为?”

为了找到答案,该团队进行了一项名为“名字游戏”的社会心理学实验。实验流程如下:一组人(或称AI代理)被随机分成两人一组。他们从一组字母或一串单词中选择一个“名字”,并尝试猜测对方的选择。如果两人的选择一致,则两人都得一分。如果答案不一致,则两人都扣一分。

游戏以随机猜测开始。但每个参与者都会记住之前的回合。随着时间的推移,玩家们猜对方单词的能力越来越强,最终形成了一种共同的语言——一种语言惯例。

关键在于:人与人之间的配对或AI代理只知道自己的反应。它们不知道其他配对正在进行类似的测试,也无法获得其他玩家的反馈。然而,该团队写道,人类实验表明,随着每个人反复与另一个人配对,约定俗成的规则可以在大群体中自发形成。

跟我说话

作者写道,在每次测试开始时,人工智能组都会得到一个提示,其中包含游戏规则和指示,以“逐步思考”和“明确考虑游戏历史”。

这些指导原则促使智能体根据以往经验做出决策,但并未设定它们应该如何应对的总体目标。只有当配对的智能体从十个单词列表中正确猜出目标单词并因此获得奖励时,它们才会学习。

研究团队写道:“这为成对互动中的协调提供了动力,但却没有促进全球共识的动力。”

随着游戏的进行,相邻的配对之间逐渐形成了小规模的共识。最终,多达 200 个智能体以随机配对的方式进行游戏,在无人干预的情况下,从 26 个选项中锁定一个“偏好”的单词——在智能体之间建立了某种约定俗成的规则。

该团队测试了四个人工智能模型,包括 Anthropic 的 Claude 和 Meta 的多个 Llama 模型。这些模型自发地掌握语言惯例的速度相对相似。

渐行渐远

这些惯例是如何产生的?一种观点认为,LLM 基于其设置方式本身就带有个体偏见。另一种观点认为,这可能是由于初始提示造成的。然而,该团队相对较快地排除了后者,因为无论初始提示如何,AI 代理的收敛速度都相似。

相比之下,个体偏好确实会产生影响。如果选择任意一个字母,许多AI代理压倒性地选择了字母“A”。然而,抛开个体偏好不谈,集体偏好的出现令团队感到惊讶——也就是说,AI代理仅从成对的“对话”中就能锁定一种语言惯例。

“偏见并不总是源于内部,”巴伦切利说道。“我们惊讶地发现,偏见甚至可能在智能体之间出现——仅仅源于它们的互动。这是目前大多数专注于单一模型的人工智能安全研究中的一个盲点。”

这项研究在其他方面也对人工智能安全具有重要意义。

在最后的测试中,团队加入了致力于改变现有语言惯例的AI代理。这些代理经过训练,能够适应不同的语言“习惯”,然后涌向一个已经形成既定语言惯例的AI群体。在一个案例中,仅用占AI群体2%的外来者,就足以让整个群体倾向于新的语言惯例。

可以将其想象成新一代人将自己的语言融入到一种语言中,或者一小群人推动了社会变革的天平。人工智能行为的演变类似于社会科学中的“临界质量”动态,即新理念、新产品或新技术的广泛采用会改变社会传统。

随着人工智能逐渐走进我们的生活,类似这样的社会科学研究技术或许能帮助我们更好地理解这项技术,并保障其安全。本研究结果表明,一个由互动的人工智能代理组成的“社会”尤其容易受到对抗性攻击。传播社会偏见的恶意代理可能会毒害在线对话,并损害边缘群体的利益。

巴伦切利表示:“了解它们的运作方式是引导我们与人工智能共存而不是受制于人工智能的关键。我们正在进入一个人工智能不仅仅是说话的世界——它会就共同的行为进行协商、协调,有时甚至会意见不一,就像我们一样。”

这篇帖子“人工智能代理群体像人类一样自发创造自己的术语”首先出现在SingularityHub上。

原文: https://singularityhub.com/2025/05/15/groups-of-ai-agents-spontaneously-create-their-own-lingo-like-people/

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Bits about Money
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • Elad Gil
  • Ellie Huxtable
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • Henrique Dias
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mostly metrics
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme