衡量 2025 年初人工智能对经验丰富的开源开发人员生产力的影响

衡量 2025 年初人工智能对经验丰富的开源开发人员生产力的影响

METR（模型评估与威胁研究）是由 OpenAI 前对齐研究员 Beth Barnes 创立的非营利性研究机构（参见维基百科）。他们之前曾为 OpenAI 和 Anthropic 的系统卡做出过贡献，但这项新研究代表了他们略有不同的研究方向：

我们进行了一项随机对照试验 (RCT)，旨在了解 2025 年初 AI 工具如何影响经验丰富的开源开发者在自己的代码库上工作的效率。令人惊讶的是，我们发现，当开发者使用 AI 工具时，他们的开发时间比不使用时长增加了 19%——AI 让他们的速度变慢了。

全文（PDF）包含链接摘要中缺少的许多细节。

METR 招募了 16 位经验丰富的开源开发者参与研究，他们对 LLM 工具的接触程度各不相同。然后，他们从自己的开源项目中分配任务，并随机分配每个任务是否允许使用人工智能。

他们发现开发商估计的时间和实际完成时间之间存在惊人的差异：

完成研究后，开发人员估计启用 AI 可以将完成时间缩短 20%。令人惊讶的是，我们发现启用 AI 实际上会使完成时间增加 19%——AI 工具反而拖慢了开发人员的速度。

前几天，我在 Hacker News 上分享了我对这篇论文的初步看法：

我个人的理论是，通过 LLM 协助和 AI 工具获得显著的生产力提升，其学习曲线比大多数人预期的要陡峭得多。

这项研究有 16 名参与者，他们之前都接触过 AI 工具——其中 56％的人以前从未使用过 Cursor，而这项研究主要涉及 Cursor。

然后，他们让这 16 名参与者处理一些问题（每人大约 15 个），每个问题都随机分配了“你可以使用 AI”与“你不能使用 AI”的规则。

因此，每个开发人员在研究期间都会同时处理 AI 任务和非 AI 任务。

四分之一的参与者表现有所提高，四分之三的参与者表现有所下降。

人工智能领域表现最出色的人之一，也是拥有最多 Cursor 使用经验的人。论文中承认了这一点：

然而，我们看到拥有超过 50 小时 Cursor 经验的开发人员的速度得到了积极的提升，因此使用 Cursor 的技能上限可能很高，因此拥有丰富经验的开发人员能够看到速度的积极提升。

我的直觉是，这项研究主要表明，人工智能辅助开发的学习曲线足够高，要求开发人员将其融入到他们现有的工作流程中会降低他们在攀登学习曲线时的表现。

我从这项研究的作者之一 Nate Rush那里得到了深刻的回复，其中包括以下说明：