衡量 2025 年初人工智能对经验丰富的开源开发人员生产力的影响
METR(模型评估与威胁研究)是由 OpenAI 前对齐研究员 Beth Barnes 创立的非营利性研究机构(参见维基百科)。他们之前曾为 OpenAI 和 Anthropic 的系统卡做出过贡献,但这项新研究代表了他们略有不同的研究方向:
我们进行了一项随机对照试验 (RCT),旨在了解 2025 年初 AI 工具如何影响经验丰富的开源开发者在自己的代码库上工作的效率。令人惊讶的是,我们发现,当开发者使用 AI 工具时,他们的开发时间比不使用时长增加了 19%——AI 让他们的速度变慢了。
全文(PDF)包含链接摘要中缺少的许多细节。
METR 招募了 16 位经验丰富的开源开发者参与研究,他们对 LLM 工具的接触程度各不相同。然后,他们从自己的开源项目中分配任务,并随机分配每个任务是否允许使用人工智能。
他们发现开发商估计的时间和实际完成时间之间存在惊人的差异:
完成研究后,开发人员估计启用 AI 可以将完成时间缩短 20%。令人惊讶的是,我们发现启用 AI 实际上会使完成时间增加 19%——AI 工具反而拖慢了开发人员的速度。
前几天,我在 Hacker News 上分享了我对这篇论文的初步看法:
我个人的理论是,通过 LLM 协助和 AI 工具获得显著的生产力提升,其学习曲线比大多数人预期的要陡峭得多。
这项研究有 16 名参与者,他们之前都接触过 AI 工具——其中 56% 的人以前从未使用过 Cursor,而这项研究主要涉及 Cursor。
然后,他们让这 16 名参与者处理一些问题(每人大约 15 个),每个问题都随机分配了“你可以使用 AI”与“你不能使用 AI”的规则。
因此,每个开发人员在研究期间都会同时处理 AI 任务和非 AI 任务。
四分之一的参与者表现有所提高,四分之三的参与者表现有所下降。
人工智能领域表现最出色的人之一,也是拥有最多 Cursor 使用经验的人。论文中承认了这一点:
然而,我们看到拥有超过 50 小时 Cursor 经验的开发人员的速度得到了积极的提升,因此使用 Cursor 的技能上限可能很高,因此拥有丰富经验的开发人员能够看到速度的积极提升。
我的直觉是,这项研究主要表明,人工智能辅助开发的学习曲线足够高,要求开发人员将其融入到他们现有的工作流程中会降低他们在攀登学习曲线时的表现。
我从这项研究的作者之一 Nate Rush那里得到了深刻的回复,其中包括以下说明:
总的来说,这些结果令人惊讶,这使得人们很容易读懂这篇论文,找到一个引起共鸣的因素,并得出结论:“啊,这个因素可能正好解释了经济放缓。” 我的猜测是:没有单一的因素——有很多因素导致了这个结果——至少有5个因素看起来有可能,至少有9个因素我们不能排除(参见第11页的因素表)。
以下是最可能因素的表格:
我认为 Nate 是对的,直接根据单一因素得出结论是一种肤浅且没有成效的思考这份报告的方式。
话虽如此,我还是无法抗拒这样做的诱惑!对我来说最突出的因素是,这些开发人员都在他们已经深入了解的存储库中工作,大概是针对一些非平凡的问题,因为任何平凡的问题很可能在过去都已经得到解决。
我认为这篇论文非常有趣。衡量开发人员的生产力是出了名的困难。我希望这篇论文能够激发更多类似分析专业程序员如何分配时间的详细研究:
为了比较开发人员在有和没有 AI 帮助的情况下如何度过时间,我们手动为 128 个屏幕录像子集添加了细粒度的活动标签,总计 143 小时的视频。
来源: Hacker News
标签:开源、生产力、人工智能、生成式人工智能、法学硕士、人工智能辅助编程、论文评审
原文: https://simonwillison.net/2025/Jul/12/ai-open-source-productivity/#atom-everything