去年,诺亚·史密斯(Noah Smith) 提出了他的“两纸规则” :
我从未面对过诺亚的挑战。为什么?说实话,因为我不知道有任何实证论文符合诺亚的标准。是的,有些文献综述我认为很优秀,比如克莱门斯的“ 人行道上的万亿美元钞票”文章,或者巴内特和塞西关于学习迁移的文章。但我不愿指出任何具体的研究,并称其为“典范”或“典范”。我仔细研究过的每篇文章都有问题——无论我多么坚定地同意其结论。我愿意给一篇论文的最高评价是“仔细”和“酷”,而不是“引人注目”或“显然正确”。 我的口号是:没有哪张纸是那么好。 每篇具体的实证论文有什么问题? 首先, 外部效度始终存在争议。如果你使用1950年至2010年的数据,你完全有理由怀疑:“这些结果现在还适用吗?” 如果你使用美国50个州的数据,你完全有理由怀疑:“这些结果对加拿大、德国或中国适用吗?” 如果你设置了一个原始实验,问题只会变得更糟;这个实验甚至可能在进行当天就与现实世界不相关。 其次, 识别自然实验始终存在争议。识别真正的“自然实验”需要智慧和耐心。很多聪明人缺乏其中之一或两者。将某事称为“自然实验”并不意味着它就是自然实验。 第三,即使是聪明的人也容易犯下大错。一篇在普通读者看来无可挑剔的论文,可能基于错误的编码数据。或者,关键的变量名可能被调换了。 第四,尽管研究人员喜欢假装他们的结论纯粹基于“证据”,但他们的先验知识始终至关重要。如果A对你来说乍一看显而易见,而论文X证实了A,即使是更了解情况的研究人员也很难不说“X表明A是正确的”。问题不在于对A的信心,尽管这种信心或许完全有道理。问题在于你假装相信A是因为X证实了A,即使无论X结果如何,你都会相信A。 第五,大多数研究人员的先验认知都受到一些极其可疑因素的严重影响。这些因素包括:社会接受度、意识形态的可及性,以及你在无知青少年时期的想法。 需要明确的是,我坦白承认有些论文比其他论文更好。我只是认为,现存最好的论文仍然令人失望——而且可能永远如此。正如圣保罗所言:“因为世人都犯了罪,亏缺了神的荣耀。” 想象一下,将论文的说服力放在从 0 到 1 的连续区间。0=“根本没有提供任何信息。”1=“果断地回答了它的问题。”至少对于那些大家都关心的问题,我认为论文的中位数在 0.05 左右徘徊。最好的论文可以达到 0.20 左右。再说一次,没有一篇论文是那么好。如果你有异议,请考虑一下:二十年后,你还会把今天最好的论文奉为令人信服的实证研究的“典范”或“典范”吗?如果不是,你已经同意我的观点了。最好的论文相对来说还不错,但绝对平庸。不,你不能把五篇得分最高的论文拼凑在一起就能达到 1.0。 这些也适用于我的论文吗?当然。我最多只能说,我非常清楚自己认知上的弱点,并且有一系列自我设限的保障措施。但我完全理解为什么批评我的人会看着我最好的论文说:“嗯,什么也证明不了。” 鉴于我对研究的悲观看法,我该如何保持专业研究者的本色?这得归功于斯多葛主义的力量。尽管没有哪篇论文是那么好,我仍竭尽全力追寻真理。我如饥似渴地阅读与我心中问题相关的所有学科的文献——尤其是那些诺亚不屑一顾的评论文章。他说得对,研究“充满了错误和糟糕的推理”;我可能比他察觉到的错误和糟糕的推理还要多。但作为读者,我的目标是发现一篇论文是否有任何价值。当我把一篇论文扔进垃圾桶时,主要是因为我认为作者甚至不想回答一个重要的问题。 但更根本的是,我试图抛开有争议的先验知识,转而采用常识, 保持冷静, 用怀疑的眼光看待我所有的身份。 我敢打赌,我希望有更好的方法——一种能确保真相的算法。但我没有看到任何迹象表明这种算法存在。 该文章最先出现在Econlib上。
© 2025布莱恩·卡普兰 |
没有哪张纸那么好
去年,诺亚·史密斯(Noah Smith)提出了他的“两纸规则”:
͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏