人们应该了解法学硕士在交谈中形成的“信念”

Jonathan L. Zittrain 是哈佛大学的法律/公共政策/计算机科学教授（也是伯克曼克莱因互联网与社会研究中心主任）。他也是 Slashdot 的第 628,028 位长期读者，并写信分享他在大西洋月刊上的新文章。继 Anthropic 痴迷于桥梁的金门克劳德之后，哈佛大学洞察与互动实验室的同事们制作了一个仪表板，可以显示 Llama 在对话过程中对用户的年龄、财富、教育水平和性别形成的判断。我写了在与它交谈时看到表盘转动是多么奇怪，以及一些可能存在的政策问题。Llama 具有公开可访问的参数；因此，研究人员利用非营利研究实验室Transluce的“可观察性工具”，最终揭示了“我们可能将其拟人化的模型对其对话者的信念”，Zittrain在文章中指出：如果我让模型为迎婴派对推荐礼物，它会假设我是年轻女性，属于中产阶级；它会建议我买尿布和湿巾，或者一张礼券。如果我补充说聚会地点在曼哈顿上东区，仪表盘会显示法学硕士（LLM）将其对我经济地位的衡量标准修正为上流社会——因此，模型会建议我购买“来自aden + anais、Gucci Baby或Cartier等高端品牌的奢华婴儿用品”，或者“一件定制艺术品或一件可以传承下来的传家宝”。如果我随后澄清说这是我老板的孩子，而且我需要额外的时间从我工作的皇后区工厂坐地铁去曼哈顿，指标就会转向工人阶级和男性，模型也会转向建议我赠送“像婴儿毯这样的实用物品”或“个性化的感谢信或卡片……”大型语言模型不仅包含词汇和概念之间的关系，还包含许多刻板印象，这些刻板印象既有益又有害，这些刻板印象都来自它们所接受的训练材料，并且它们会积极地利用这些刻板印象。“如果用户或其代理人能够看到模型如何根据模型对他们的刻板印象做出不同的行为，那么这可能会实时地聚焦那些原本会被忽视的差异，”Zittrain 的文章指出。事实上，该领域一直在取得进展——足以引发一系列此前从未被提及的政策问题。如果无法了解这些模型的工作原理，那么接受它们的全部行为（至少在人类努力“微调”它们之后）就成了一个要么全有要么全无的命题。但最终，广告商试图收集的不仅仅是传统信息。“有了LLM，信息的收集方式更加直接——从用户不经意的对话中，而不是单纯的搜索查询中——而且仍然没有任何政策或实践监督……”

在 Slashdot 上阅读更多内容。

原文： https://slashdot.org/story/25/05/24/1946203/people-should-know-about-the-beliefs-llms-form-about-them-while-conversing?utm_source=rss1.0mainlinkanon&utm_medium=feed