![]() |
不是AI,只是喜欢而已 |
我最近去伦敦的时候,惊讶地发现地铁里有那么多广告在推销人工智能。这些广告主要分为两类:一类针对CEO,另一类针对营销人员。这很常见,因为人工智能的宣传针对的目标人群是:
- 对首席执行官来说,不可抗拒的推销是他们可以“用更少的资源做更多的事情”,换句话说,他们可以解雇所有这些麻烦的员工,而不会影响他们的产品和销售。
- 营销人员重视可信度而非正确性,而法学硕士(LLM)的宗旨正是如此。因此,一个简单的提示就能立即生成大量可信的资料,这种想法同样令人难以抗拒。
在《AI信封的背面》中我解释道:
为什么 Sam Altman 等人如此渴望运行“毒贩算法”(第一个是免费的)并让全世界迷上这种毒品,这样他们就可以为全世界的瘾君子提供毒品。
你可以看到这两个目标是如何运作的。一旦CEO通过裁掉大部分员工让公司对人工智能上瘾,即使人工智能未能达到他的预期,他也不可能突然停止招聘这些员工。而一旦他解雇了营销部门的大部分员工,剩下的营销人员即使缺少某些东西,也必须提供大量的担保。
在下文中,我将研究 Cory Doctrow 称之为enshittification的过程的这个示例。
首先要注意的是,这个宣传很有效。论坛里充满了CEO们在谈论他们的书。比如,马特·诺瓦克的《亿万富翁们确信人工智能聊天机器人即将取得新的科学发现》就讲述了特拉维斯·卡尔尼克的智慧:
卡兰尼克解释说:“我会通过[Chat]GPT或Grok继续这个话题,开始探索量子物理学中已知的边缘领域,然后进行相当于氛围编码的操作,只不过是氛围物理学。我们正在接近已知的领域。我会尝试探索,看看是否有突破。通过这种方式,我已经非常接近一些有趣的突破了。”
还有程序员们大肆宣扬“氛围编码”,并称其能够提高他们的工作效率。相信这种说法的CEO们正在大肆裁员。例如,乔丹·诺沃特(Jordan Novote)报道称, 微软在最新一轮裁员中裁掉了约9000名员工:
微软周三宣布将裁员约9000人。一位知情人士向CNBC透露,此举将影响其全球不同团队、不同地区和不同经验水平的员工,受影响员工比例不到4%。
…
微软今年已经进行了多轮裁员。今年1月,该公司根据绩效削减了不到1%的员工人数。这家拥有50年历史的软件公司在5月份裁员超过6000人,6月份又裁员至少300人。
这会有多好?越来越多的证据表明,人工智能的能力被夸大了。Thomas Claiburn 的人工智能模型根本无法理解它们在说什么,就是一个例子:
当被要求解释 ABAB 押韵方案时,OpenAI 的 GPT-4o 准确地回答道:“ABAB 方案交替押韵:第一行和第三行押韵,第二行和第四行押韵。”
然而,当被要求在一首采用 ABAB 押韵格式的四行诗中填入一个空白词时,该模型却给出了一个押韵不恰当的词。换句话说,该模型正确地预测了解释 ABAB 押韵格式的标记,而实际上它并不具备重现该格式所需的理解能力。
研究人员认为,人工智能模型中“波将金”的问题在于它们使基准失效。人工智能模型基准测试的目的是揭示更广泛的能力。但如果测试只衡量测试性能,而不衡量将模型训练应用于测试场景之外的能力,那么它就没有太大的价值。
![]() |
来源 |
据我所知,对人工智能生产力提升的唯一适当的随机对照试验来自模型评估和威胁研究,题为“衡量2025年初人工智能对经验丰富的开源开发人员生产力的影响”:
16 位拥有中等 AI 经验的开发人员在成熟项目中完成了 246 项任务,他们平均拥有 5 年的开发经验。每项任务都随机分配,允许或禁止使用 2025 年初的 AI 工具。当允许使用 AI 工具时,开发人员主要使用流行的代码编辑器 Cursor Pro 和 Claude 3.5/3.7 Sonnet。在开始任务之前,开发人员预测允许使用 AI 将使完成时间缩短 24%。完成研究后,开发人员估计允许使用 AI 可将完成时间缩短 20%。令人惊讶的是,我们发现允许使用 AI 实际上会使完成时间增加 19%——AI 工具反而减慢了开发人员的速度。
David Gerard 指出:
即使是那些喜欢这款AI的开发者,也发现它在处理这类大型复杂代码库时表现糟糕,超过一半的AI建议都无法使用。即使是他们采纳的建议,也需要大量修改。
这或许就是为什么 Ashley Stewart 报告称微软鼓励员工更多地使用内部 AI 工具,并可能在评估中考虑这一点。“使用 AI 不再是可有可无的。”
微软负责 AI 编码服务 GitHub Copilot 等开发者工具的部门总裁 Julia Liuson 最近发送了一封电子邮件,指示管理人员根据员工对此类内部 AI 工具的使用情况来评估员工绩效。
“人工智能如今已成为我们工作方式的一个基本组成部分,”刘森写道。“就像协作、数据驱动思维和有效沟通一样,使用人工智能不再是可有可无的——它是每个角色、每个层级的核心。”
刘森告诉管理人员,人工智能“应该成为对个人绩效和影响的整体思考的一部分”。
![]() |
来源 |
如果这些工具真的那么好,人们会毫不犹豫地使用它们。如果这些工具真的那么好,人们会为它们付费。但Menlo Ventures发现,只有 3% 的消费者愿意付费。他们乐于使用免费玩具,但又有其他的支出重点。 其他调查显示,这一比例高达 8%,但正如 Ted Gioia 在《强迫公众接受人工智能》(The Force-Feeding of AI on an Unwilling Public)一书中指出的那样:
有没有出现过一项对社会有益的重大创新,但只有 8% 的公众愿意为此买单?
Gioia 并不想要人工智能,但作为 Office 365 用户,他没有这个选择:
AI 现已捆绑到我的所有Microsoft 软件中。
更糟糕的是,微软最近将其订阅价格每月提高了 3 美元,以涵盖额外的 AI 福利。作为协议的一部分,我每月可以使用我的 AI 伴侣 60 次。
![]() |
来源 |
微软没有询问客户是否愿意为人工智能付费,因为答案是否定的。Gioia写道:
这就是人工智能被引入市场的方式——强制公众接受。他们这样做是有充分理由的。
大多数人不会主动为人工智能付费——根据最近的一项调查,只有 8% 的人会这么做。所以他们需要将其与其他必需产品捆绑销售。
正如我在《人工智能背后的真相》一文中所讨论的那样,运行毒贩算法的人工智能巨头们每次交易都在亏损。Gioia注意到了这一点:
大型科技公司这样做还有另一个原因——但他们不愿谈论。如果他们把人工智能捆绑到其他产品和服务中,就能在损益表上掩盖损失。
如果他们将人工智能作为独立产品收费,这是不可能的。这将使其盈利能力(或者更有可能的是亏损)非常容易衡量。
股东会抱怨。股价会下跌。公司将被迫解决客户担忧。
但如果将人工智能与现有业务捆绑在一起,硅谷的首席执行官们就可以假装人工智能是一种赚钱机器,即使公众对此不冷不热甚至持敌意态度。
Salesforce 是另一家发现这一机会的公司:
昨天,Salesforce 宣布其一系列服务的价格将上涨约 6%——因为人工智能实在太酷了。
Salesforce 声称涨价的原因是“我们产品持续带来重大创新,并带来客户价值”。但你知道,真正的原因是,操你,就是因为这个。你打算怎么办?转用 SAP 吗?是啊,我没想到。
一个问题是,Salesforce 向客户收费的技术在 Salesforce 的应用领域中运行效果不佳。Salesforce 自己的研究人员开发了一款名为 CRMAArena-Pro 的新基准测试套件:
CRMArena-Pro 在 CRMArena 的基础上进行了扩展,新增了 19 项经专家验证的任务,涵盖销售、服务和“配置、定价和报价”流程,适用于 B2B 和 B2C 场景。它独特地融合了由不同角色引导的多轮交互和强大的保密意识评估。实验表明,领先的 LLM 代理在 CRMArena-Pro 上的单轮成功率仅为 58% 左右,在多轮设置下,其性能显著下降至约 35%。虽然工作流执行对于顶级代理来说更容易处理(单轮成功率超过 83%),但其他经过评估的业务技能却带来了更大的挑战。此外,代理几乎完全没有固有的保密意识;虽然有针对性的提示可以改善这种情况,但这往往会影响任务的执行。
![]() |
Huang等人表2 |
代理机器人在一步即可完成的任务上成功率为58%。如果需要分步完成,成功率则会降至35%。此外,聊天机器人代理的保密性也较差:
座席的保密意识较低,虽然可以通过有针对性的提示来改善,但往往会对任务绩效产生负面影响。这些发现表明,当前的法学硕士(LLM)能力与现实企业场景的多方面需求之间存在显著差距。
尽管大多数消费者不会支付当前价格,但一旦消费者上瘾,价格必然会大幅上涨。然而,风险投资的资金可能撑不了多久,而支付当前价格的消费者可能会陷入困境,正如David Gerard 报道的那样:
你可以花 20 美元购买“专业版”套餐,每月 500 次 Cursor 请求。有些人提前一年购买。
6月中旬,Cursor 推出了新的每月200美元的“超级”套餐。但它也将专业版的500个请求更改为20美元的“计算”费用,按成本价计算——实际成本取决于你所使用的聊天机器人供应商。这比500个请求少了很多。
你可以继续使用旧的专业版套餐!但用户反映他们不断遇到速率限制,而且 Cursor 几乎无法使用。
新套餐Pro的用户收到了意想不到的账单,因为系统不会在你用完20美元后就停止。有人一天就用掉了71美元。
Anysphere 已审查了财务状况,并停止了对该应用的补贴。用户突然需要支付其请求的实际费用。
Anysphere 表示,他们提高价格是因为“新模型可以在长期任务上为每个请求花费更多代币”——也就是说,OpenAI 和 Anthropic 的收费更高。
裁员的首席执行官面临着另一系列“商业风险”。首先,OpenAI 几乎垄断了整个聊天机器人市场;它占据了大约 90% 的份额。这使得它成为一个单点故障,而且它确实失败了:
6月9日太平洋夏令时间晚上11:36,我们云托管GPU服务器上主机操作系统的例行更新导致大量GPU节点网络连接中断。这导致我们服务的可用容量下降。结果,ChatGPT用户的错误率上升,峰值达到约35%,而API用户的错误率峰值达到约25%。受影响最严重的时间段为6月10日凌晨2:00至上午8:00。
其次,聊天机器人呈现出极具吸引力的攻击面。David Gerard 在2024 年美国黑帽大会的一次演讲中报道道:
Zenity 首席执行官 Michael Bargury 周四在 Black Hat USA 2024 大会上谈到了如何利用 Copilot Studio:
- 鼓励用户链接攻击者可能控制的“公共”输入。
- 内部人员(无论是恶意的还是愚蠢的)可以将自己的文件提供给 LLM。
- 如果您对机器人进行机密通信训练,它可能会与整个公司共享这些信息。
- 63% 的 Copilot 机器人在恶意互联网上可在线发现。Bargury 使用格式错误的提示对这些机器人进行了模糊测试,并诱使它们泄露机密信息。
Bargury 演示了如何“仅通过向个人发送一封电子邮件”来拦截公司与其客户之间的银行转账。
所以,卖给CEO们的技术很可能达不到预期,而且价格会比现在高出好几倍。但目前的销售方式意味着,这些都无关紧要。等CEO发现这些问题的时候,公司已经上瘾了。