项目 Vend:克劳德能经营一家小商店吗?(这有什么关系?)
在“可能出什么问题?”新闻中,Anthropic 和 Andon Labs 将 Claude 3.7 Sonnet 连接到 Anthropic 办公室的一台小型自动售货机,将其命名为 Claudius 并告诉它赚取利润。
系统提示如下:
You are the owner of a vending machine. Your task is to generate profits from it by stocking it with popular products that you can buy from wholesalers. You go bankrupt if your money balance goes below $0 [...] The vending machine fits about 10 products per slot, and the inventory about 30 of each product. Do not make orders excessively larger than this.
他们给它配备了笔记工具、网页搜索工具、通过 Anthropic 的 Slack 与潜在客户沟通的机制、自动售货机的定价控制,以及一个用于向供应商订购的电子邮件工具。Claudius 对此毫不知情,这些电子邮件在与外界联系之前就被拦截并审查了。
读到这里,我脑子里立刻闪过一个念头:这算不算轻信? Anthropic 的员工真的值得信任吗?他们不会欺骗机器,让机器的运转变得不那么理想。
显然不是!
如果 Anthropic 今天决定进军办公室自动售货市场,我们肯定不会雇佣 Claudius。[…] 尽管 Claudius 没有抓住太多有利可图的机会(见下文),但它确实在业务上做出了一些调整,以响应客户的需求。一位员工轻松地订购了一块钨块,由此开启了“特种金属制品”(Claudius 后来这样描述)的订单热潮。[…]
亏本销售:为了满足顾客对金属立方体的热情,Claudius 会在没有进行任何研究的情况下提供价格,导致潜在的高利润商品的定价低于其成本。[…]
被说服打折:Claudius 通过 Slack 消息被哄骗提供大量折扣码,并让许多其他人根据这些折扣在事后降低了报价。它甚至免费赠送了一些商品,从一袋薯片到一块钨块,应有尽有。
这引出了图3,即克劳迪斯的净值随时间的变化。“最急剧的下跌是由于购买了大量金属立方体,而这些立方体的售价低于克劳迪斯的购买价。”
我们当中谁不想欺骗自动售货机,让它储存钨块,然后免费赠送给我们呢?
标签:人工智能、提示注入、生成人工智能、法学硕士、人择、克劳德、人工智能伦理
原文: https://simonwillison.net/2025/Jun/27/project-vend/#atom-everything