“95%”是如何流传到世界各地的——以及为什么那么多人相信它

大家好，今天的帖子面向所有人开放，旨在促进公共讨论和反垃圾思维。

有一个数字不断出现在我的演讲、董事会会议、谈话和收件箱中：

“95%”

我还需要多说什么吗？好吧，这里还有一条线索：这个数字在2025年以借来的权威性传播开来，很少有脚注，并且开始影响决策。

其论断是： “ 95%”的组织机构看不到生成式人工智能对损益有任何可衡量的影响。当然，你明白我在说什么。这种说法已经在《财富》杂志、《金融时报》和《经济学人》 等媒体上广泛传播。

“95%”这个数字通常以“麻省理工学院/麻省理工学院媒体实验室研究”的名义出现，并被视为衡量人工智能经济的既定标准。它渗透到我的日常对话中，并正在改变世界。我听到企业高管在决定如何部署人工智能时引用它，也听到投资者用它来评估风险。

这个数字沐浴在麻省理工学院（MIT）——世界顶尖科技大学的光环之下。我不禁开始怀疑，这个证据是否真的配得上这份光环。结果发现，我并非孤例——哈斯商学院的托比·斯图尔特（Toby Stuart）也撰文指出，声望和权威如何能将一个站不住脚的论断包装成公认的真理。

去年年底，我试图追溯这一说法的根源。究竟是谁研究了谁，研究时间是什么时候，以及什么才算“影响力”？是什么让“95%”这个数字值得信赖，而不是为了博取眼球而编造的噱头？我还联系了作者和麻省理工学院征求意见。今天，我将分享我的发现。

“95%”这个统计数据已经过时了。它和“我们只用了大脑的10%”、“吞下的口香糖需要七年才能消化”以及“拿破仑个子矮”一样，都成了被遗忘的统计数据。图片由Midjourney生成。

立即订阅

书面记录

这份报告最初是与麻省理工学院NANDA项目合作完成的。报告发布时， NANDA项目隶属于麻省理工学院媒体实验室的影像文化研究小组。报告中只出现了麻省理工学院的标志，并没有出现“麻省理工学院媒体实验室”的字样。

该论文的两位学术作者分别是副教授拉梅什·拉斯卡尔和博士后研究员普拉迪尤姆纳·查里，他们都隶属于麻省理工学院媒体实验室的同一个“相机文化”研究小组。另外两位作者分别是企业家克里斯·皮斯和科技高管阿迪亚·查拉帕利。

执行摘要的第一句话就引起了新闻界的轩然大波：

尽管企业在人工智能领域投入了 300 亿至 400 亿美元，但这份报告揭示了一个令人惊讶的结果：95% 的组织没有获得任何回报。

来源

这表明他们选取了一定数量的组织作为样本。而这正是我对这篇论文的质疑所在。

问题一：没有置信区间

为了演示计算方法，我们以52这个样本量为例。这是本次研究中的访谈次数。如果95%的受访者表示没有获得任何回报，那么计算就很简单了。

显然，不可能有 49.4 个组织回复“我们失败了”，要么是 49 个，要么是 50 个。

这本身就是个问题。如果是50，实际成功率是3.8%。如果是49，成功率是5.8%。

但即便如此，这种想法在另外两个方面也过于天真：首先，这只是一个样本，其次，它可能并不具有代表性。这里所讨论的样本量可能低至52（即访谈次数），尽管也可能更高（见下文第二点）。而实际的组织机构数量要多得多。

因此，我们得到的是整个总体的一个样本。学术惯例是在拥有样本而非普查数据时提供置信区间。对于来自一个未指明的较大总体的约 52 个样本，置信区间约为 +/- 6 %；随着样本量增加到几百个，置信区间会下降到 +/- 3% 左右。¹ 该论文没有提供 95% 置信区间，违反了学术惯例。

论文的研究附录指出，置信区间是“在适用情况下使用自助法重采样”计算的。自助法的优点在于它不对数据分布做任何先验假设；然而，小样本会产生更宽的置信区间，反映出更大的不确定性。如果对一个包含 49 或 50 个失败案例的 52 个样本进行自助法计算，那么置信区间将介于 100% 失败率和 86.5% 失败率之间（使用 49/52 的数据。50/52 失败案例的置信区间为 90.4% 到 100%）。这意味着真实值可能在 13.5 个百分点的范围内。将此数值报告为单一的 95% 值完全掩盖了潜在的不确定性——样本中的失败率可能在 80% 到 100% 之间。这是一个波动性极大的范围，尽管方法论上有所说明，但仍然动摇了我的信心。

问题二：样本不具代表性

但鉴于这显然只是一个样本，那么这个样本是否具有代表性呢？像麻省理工学院NANDA研究那样，将访谈、会议回复和公开案例研究相结合，可以作为一种有效的初步评估。但仅凭这一点，它并不能可靠地描绘出“组织”的整体面貌。研究人员混合使用了52次结构化访谈、对300个公共人工智能项目（究竟有多少个？选择了哪300个？）的分析，以及对153位未指明身份的“高级领导”的调查问卷。

报告第 24 页第 8.2 节确实承认了抽样技术的局限性：“我们的样本可能无法完全代表所有企业部门或地理区域”以及“愿意讨论人工智能实施挑战的组织可能与拒绝参与的组织存在系统性差异，这可能会造成对更具实验性或更谨慎的采用者的偏差”。

样本周期本身存在根本性缺陷。它涵盖了2025年1月至6月，整整六个月。请考虑以下时间线：如果最早的企业级人工智能项目在2023年末或2024年初启动，那么受访者报告的项目开展时间可能在12到18个月之间。然而，2025年1月接受采访的受访者可能仅仅在三个月前，也就是2024年9月末或10月初才启动了他们的项目。我们如何才能将三个月的试点项目与十八个月的全面推广进行有意义的比较呢？

本次调查窗口将处于截然不同的成熟度和目标阶段的项目混为一谈，这在任何情况下都是一个严重的方法论问题，但在此尤其具有破坏性。据我们预测，2024年企业人工智能支出至少增长了三倍（月复合增长率约为10.6%）；2025年上半年，增长率为1.66倍（相当于年化增长率2.75倍）。Menlo Ventures 预计，2025年企业人工智能支出将增长3.2倍。如此快速的变化，无论是使用模式、用户构成，还是“企业人工智能”的定义本身，都使得为期六个月的调查窗口几乎毫无意义。

因此，除非研究人员公开原始数据，否则我们根本无从得知样本中究竟是早期采用者，还是抱有很高期望的早期采用者，抑或是由自认为领导者但实际上并非如此的人组成，又或是由一些不代表这家美国公司的边缘组织成员组成。我们也无从判断，如果1月份回答“否”的人在6月份被问及此事，他们是否会回答“是”。

立即订阅

问题三：分母的变化令人困惑

这项研究将公开数据（可能具有代表性，也可能不具有代表性）与两种不同类型的访谈和调查混杂在一起，而且这些访谈和调查是在较长时间内进行的。结果一团糟。

但是，接下来我们要问一个问题：我们计算的是什么？假设你有一个高中，一年级有500名学生：250名男生和250名女生。如果你说60%的男生和70%的女生通过了数学考试，那么说60%的学生通过了数学考试是不合理的（因为你忽略了女生）。同样，说70%的女生通过了物理考试也是不合理的（因为你只提到了数学考试的数据）。

然而，这大致就是NANDA论文的做法。但其使用的分母计算方法并不一致。第6页的图表显示，在抽样调查的公司中，只有5%成功实施了嵌入式或特定任务的基因人工智能工具。图表还显示，60%的公司考察过特定任务的工具。

在这种情况下，分母包含了从未调查过特定任务工具的40%的公司。如果情况属实，即您的公司从未调查过使用特定任务的AI工具，那么就此而言，您的未调查行为将被视为失败。

如果这些定义前后一致，并且以“研究的工具”作为分母，那么真正的数学计算结果为：

问题在于，这份报告自相矛盾。报告第3页指出，“仅有5%的集成人工智能试点项目创造了数百万美元的价值”。但这暗示分母是已启动的试点项目数量，也就是上图中蓝色箭头所指的数字。如果真是这样，那么真正的成功率是……

四分之一是一个极高的比例——如果属实，我们需要进行更多研究来消除我们的疑虑。

但请记住报告的引言。它指出“95%的组织没有获得任何回报”，这里指的不是那些开展了人工智能试点项目的组织，而是所有组织。

问题四：对“成功”的定义方法不明确。

那么，所谓的“可衡量的损益影响”又该如何解释呢？损益并非像降雨那样自然发生。任何经营过企业的人都知道这一点。在大型组织中，真正了解情况的人寥寥无几，而且也不清楚这些人中有多少会参与会议调查或访谈。即便确实存在这样的影响，也很难在短短几个月内对其进行有效归因的衡量。

标题数据暗含着关于速度的说法：“表现最佳的团队报告称，从试点到全面实施的平均时间为90天。”这指的是对损益的影响，还是指技术推广？目前尚不清楚。

生成式人工智能作为一项企业技术仍处于起步阶段，预计在2023年底正式启动。企业通常需要18到24个月的时间才能将大规模IT部署从试点阶段推进到生产阶段，并在此过程中构建系统、工作流程和治理机制。

报告声称“仅有5%”的机构取得了成功。但请记住，实地调研的时间范围是2025年1月至6月。这意味着，如果一些机构在1月而非6月接受调查，它们甚至可能在调研期间就已经看到了成效。这意味着：从试点到产生实际影响，这条路走得极其缓慢。

这项研究似乎对“成功”的定义过于狭隘，以至于“尚未成功”变成了“永远无法成功”。

因此，对待“95%”的正确方式并非将其视为事实。它只是一个粗略的信号，被一些人随意地鹦鹉学舌般重复。

如何看待这四个显而易见的问题？

我写信给两位隶属于麻省理工学院的学术作者， Ramesh Raskar 教授和Pradyumna Chari 博士，以求澄清。

我询问了一些关于学术流程的具体问题。总而言之：

“95%”这个数字代表的是样本的统计结果，还是一个粗略的方向性估计？无论如何，它描述的是哪类公司和项目？
究竟什么才算“可衡量的损益影响”？他们是在实施后多久进行衡量的？影响需要有多大？他们衡量的是单个项目还是整个公司的绩效？

我的询问没有得到回复。

所以我不得不向上级反映情况。拉斯卡尔和查里都隶属于媒体实验室，该实验室是麻省理工学院建筑与规划学院下属的研究实验室。建筑与规划学院是麻省理工学院的最高层机构。

立即订阅

麻省理工学院告诉我

麻省理工学院媒体实验室主任托德·马乔弗作出了回复。麻省理工学院的法律顾问杰森·巴莱特萨也收到了副本。

在那封信中，马乔弗教授将这份文件描述为“一份初步的、未经同行评审的作品”，由参与NANDA项目的研究人员独立撰写。马乔弗告诉我，NANDA研究小组现在隶属于一个独立的非营利基金会。（尽管麻省理工学院媒体实验室仍然保留着一个NANDA研究网页。）

该报告的互联网档案馆记录。

据我了解，这份报告只是短暂发布，旨在征求反馈意见。事实上，根据互联网档案馆的记录，该报告确实于8月18日至9月16日期间发布在麻省理工学院的网站上。

这种框架——早期、探索性、公开征求意见——是合理的。学术界必须被允许公开思考。草稿和未成型的想法是学术研究过程中合理的一部分。

在征求意见期间，报告的四位作者之一接受了媒体采访。随后的大部分媒体报道将其视为一项既定结论，而非一份征求意见的早期草稿。

但这的确是个问题，对麻省理工学院和我们来说都是如此。将非正式的、非学术性的工作等同于学术研究，不仅会误导市场，还会削弱行业参与者、投资者、创始人以及公众赖以做出决策的信任基础。

该报告已不再出现在 MIT.edu 网站上。然而，目前在网上流传的 PDF 版本仍然带有 MIT 的标识，并且托管在第三方研究聚合平台上。既没有 MIT 官方发布的版本，也没有关于如何引用该报告的说明，更没有任何机构声明可以阻止人们将该统计数据视为 MIT 的研究成果。

当我进一步追问称其为“麻省理工学院/麻省理工学院媒体实验室的一项研究”是否正确时，我一开始并没有得到明确的答案。

最终，在2025年12月12日的一封电子邮件中，麻省理工学院媒体关系执行主任金伯利·艾伦代表教务长兼研究副校长写道：“有麻省理工学院的研究人员参与其中。这是一项未发表、未经同行评审的研究。据我们所知，它还没有提交同行评审。”

这多少有些帮助。这个数字一直以来都被视为一种既定事实。“麻省理工学院说”的说法理所当然地具有很高的分量。作者们自己也声明：“本报告中表达的观点仅代表作者和审稿人的观点，并不反映任何附属雇主的立场。”

但这份文件仍然印有麻省理工学院的标志，所以偶然看到它的人可能会过度解读。这个品牌仍在为一份看似尚未完成的文件做宣传。

在顶尖大学获得一个职位极其困难。“难得离谱”，一位学术界的朋友这样告诉我，正是因为这些机构的高标准已经向外界传递了一个代价高昂的质量信号。

立即订阅

打破数字

那么，什么才是更可靠的解读呢？如果我们综合考虑各公司实际报告的信息，并考虑到采用滞后性和抽样偏差，我们能否缩小“尚未对企业层面的损益表产生明显可衡量的影响”这一结论的合理范围？

重写中最有力的部分在于分母。如果分母包含所有甚至没有尝试实施特定任务人工智能的组织，那么5%这个数字就会出现，而且置信区间非常大。这就好比说我上周四没能登上从肯尼迪机场飞往希思罗机场的美国航空航班。没错，但我根本没订票。那天我甚至都不在纽约。

如果采用更合理的样本量：即那些尝试通过试点项目实施此类人工智能的人，成功率最终为 20 人中的 5 人，也就是25% 。误差范围呢？可能在正负 15% 左右；也就是说，基于少数几台最高思维模式下的逻辑推理型机器学习模型（LLM）的运行结果，成功率在 10% 到 40%之间。如果对抽样缺陷和定义不明确做出更激进的假设，那么分散程度还会进一步扩大。

如果研究人员能够分享原始数据，我们就能做得更好。但目前尚不清楚为什么有人应该基于这些数据做出任何类型的决定。

合理的推理范围应该在 80 分左右，而不是像一些机构在 2025 年 1 月至 6 月期间开展特定任务人工智能试点项目却未能取得成果时所达到的 90 分中段。但这个数字很可能要低得多。

这当然不是市场开始引用的那种虚无主义的“95%”，仿佛它是什么经过麻省理工学院认证的衡量标准似的。按照这个标准，1997年的SAP或2012年的云计算也都会失败。

简而言之，如果约85%的组织没有明显可衡量的损益影响，那么到2025年初，大约七分之一的组织已经看到了可衡量的收益。考虑到生成式人工智能进入企业领域的时间尚短，这无疑是一条通往成功的捷径。而且我这还是保守估计，实际比例很可能更高，达到五分之一甚至更多。

使用 NotebookLM 生成

这比“95% 的失败率”要复杂得多——“95% 的失败率”这样的标题要么会让人自满（“人工智能是炒作”），要么会让人抱持宿命论（“这是不可能的”）。

立即订阅

孤立统计数据及其修复方法

再深入一层，真正的问题不在于这个数字是95、86、51还是27——而在于“95%”这个统计数字已经沦为孤儿。我们对这种孤儿数字并不陌生。比如，我们只用了大脑的10%；吞下的口香糖需要七年才能消化；拿破仑个子矮；金鱼的记忆只有3秒；物质有三种状态。这些数字会被引用……仅仅因为它们被引用了。

但是，与忘记拿破仑在当时只是平庸之辈的金鱼不同，这个统计数据带有光环。而且，这个数字已经影响了资本流动。它的传播速度远超其本身的局限性。即使很久以后人们才想起要追问它究竟衡量了什么，它最终仍会被写入投资备忘录。更糟糕的是，它迫使读者去做一些基本的溯源工作，而这些工作在评论界大多都被忽略了。

因此，以下是应适用的标准。如果一项统计数据要被引用为“麻省理工学院的研究”，那么它至少应该有一个稳定的来源，并且具有足够的透明度，以便质疑者能够尝试推翻它。如果它不应该被这样引用，那么机构和作者都应该清楚地解释其来源。

在此之前，“95%”这个数字应该被视为不可靠。它虽然广为流传，但方法论薄弱，而且掩盖了自身的不足之处。这份报告或许起到了一定的作用，但其目的究竟是什么，我并不清楚。

如果——这只是个假设——去年年初已有15-20%的大型企业将生成式人工智能转化为可衡量的收益，这并非失败的案例。这只是扩散曲线右尾的快速攀升。事实上，速度之快，以至于我们应该对任何暗示这一点的资料都持怀疑态度。

那么，我究竟有多大把握认为，记者和那些急于求成的人所钟爱的95%这个统计数据是不可靠的呢？

百分之百。6

立即订阅

根据经验法则，对于二项式比例，近似双侧 95% 的误差范围为：

其中 p 是样本中观察到的比例，n 是样本大小。

这些是我提出的较长问题的精简版。

巴列萨是麻省理工学院的顾问。

为了帮助理解这里的组织结构：教务长实际上是首席学术官。主管科研的副校长负责学术质量。各学院（例如建筑与规划学院）的院长向教务长汇报工作。各学院特定实验室的主任通常向其所在学院的院长汇报工作。

但鉴于已公布的数据存在诸多缺陷，我们无法得知真相。

我95%确定自己100%确定。

原文： https://www.exponentialview.co/p/how-95-escaped-into-the-world