Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

衡量 2025 年初人工智能对经验丰富的开源开发人员生产力的影响

Posted on 2025-07-13

衡量 2025 年初人工智能对经验丰富的开源开发人员生产力的影响

METR(模型评估与威胁研究)是由 OpenAI 前对齐研究员 Beth Barnes 创立的非营利性研究机构(参见维基百科)。他们之前曾为 OpenAI 和 Anthropic 的系统卡做出过贡献,但这项新研究代表了他们略有不同的研究方向:

我们进行了一项随机对照试验 (RCT),旨在了解 2025 年初 AI 工具如何影响经验丰富的开源开发者在自己的代码库上工作的效率。令人惊讶的是,我们发现,当开发者使用 AI 工具时,他们的开发时间比不使用时长增加了 19%——AI 让他们的速度变慢了。

全文(PDF)包含链接摘要中缺少的许多细节。

METR 招募了 16 位经验丰富的开源开发者参与研究,他们对 LLM 工具的接触程度各不相同。然后,他们从自己的开源项目中分配任务,并随机分配每个任务是否允许使用人工智能。

他们发现开发商估计的时间和实际完成时间之间存在惊人的差异:

完成研究后,开发人员估计启用 AI 可以将完成时间缩短 20%。令人惊讶的是,我们发现启用 AI 实际上会使完成时间增加 19%——AI 工具反而拖慢了开发人员的速度。

前几天,我在 Hacker News 上分享了我对这篇论文的初步看法:

我个人的理论是,通过 LLM 协助和 AI 工具获得显著的生产力提升,其学习曲线比大多数人预期的要陡峭得多。

这项研究有 16 名参与者,他们之前都接触过 AI 工具——其中 56% 的人以前从未使用过 Cursor,而这项研究主要涉及 Cursor。

然后,他们让这 16 名参与者处理一些问题(每人大约 15 个),每个问题都随机分配了“你可以使用 AI”与“你不能使用 AI”的规则。

因此,每个开发人员在研究期间都会同时处理 AI 任务和非 AI 任务。

四分之一的参与者表现有所提高,四分之三的参与者表现有所下降。

人工智能领域表现最出色的人之一,也是拥有最多 Cursor 使用经验的人。论文中承认了这一点:

然而,我们看到拥有超过 50 小时 Cursor 经验的开发人员的速度得到了积极的提升,因此使用 Cursor 的技能上限可能很高,因此拥有丰富经验的开发人员能够看到速度的积极提升。

我的直觉是,这项研究主要表明,人工智能辅助开发的学习曲线足够高,要求开发人员将其融入到他们现有的工作流程中会降低他们在攀登学习曲线时的表现。

我从这项研究的作者之一 Nate Rush那里得到了深刻的回复,其中包括以下说明:

总的来说,这些结果令人惊讶,这使得人们很容易读懂这篇论文,找到一个引起共鸣的因素,并得出结论:“啊,这个因素可能正好解释了经济放缓。” 我的猜测是:没有单一的因素——有很多因素导致了这个结果——至少有5个因素看起来有可能,至少有9个因素我们不能排除(参见第11页的因素表)。

以下是最可能因素的表格:

表格显示了导致 AI 开发放缓的因素,其中包含“因素”、“类型”和“相关观察”列。标题:“可能导致放缓的因素”。第 1 行 - 对 AI 实用性过度乐观 (C.1.1),带有沙漏图标:开发人员预测 AI 将使实施时间缩短 24%,开发人员事后估计 AI 将使实施时间缩短 20%。第 2 行 - 开发人员对代码库的熟悉程度较高 (C.1.2),带有人形图标:开发人员在自己更熟悉的问题上速度会更慢,开发人员报告称他们的经验使得 AI 难以帮助他们,开发人员平均拥有 5 年经验,在代码库上提交了 1,500 次。第 3 行 - 大型复杂代码库 (C.1.3),带有构建图标:开发人员报告称 AI 在大型复杂环境中的表现更差,代码库平均已有 10 年历史,包含超过 1,100,000 行代码。第四行 - 低 AI 可靠性 (C.1.4),带有建筑物图标:开发人员接受的 AI 代数不到 44%,大多数人报告称他们进行了重大修改以清理 AI 代码,9% 的时间用于审查/清理 AI 输出。第五行 - 隐式存储库上下文 (C.1.5),带有建筑物和人物图标:开发人员报告称 AI 未利用重要的隐性知识或上下文。

我认为 Nate 是对的,直接根据单一因素得出结论是一种肤浅且没有成效的思考这份报告的方式。

话虽如此,我还是无法抗拒这样做的诱惑!对我来说最突出的因素是,这些开发人员都在他们已经深入了解的存储库中工作,大概是针对一些非平凡的问题,因为任何平凡的问题很可能在过去都已经得到解决。

我认为这篇论文非常有趣。衡量开发人员的生产力是出了名的困难。我希望这篇论文能够激发更多类似分析专业程序员如何分配时间的详细研究:

为了比较开发人员在有和没有 AI 帮助的情况下如何度过时间,我们手动为 128 个屏幕录像子集添加了细粒度的活动标签,总计 143 小时的视频。

来源: Hacker News

标签:开源、生产力、人工智能、生成式人工智能、法学硕士、人工智能辅助编程、论文评审

原文: https://simonwillison.net/2025/Jul/12/ai-open-source-productivity/#atom-everything

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Bits about Money
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • Henrique Dias
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mind Matters
  • Mostly metrics
  • Naval Ravikant
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme