Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

如何自行设计新的科学实验方案

Posted on 2025-11-18

如今的科学研究主要依赖于一个实验方案——设置对照组并进行随机分组的实验。在医学领域,这些实验通常被称为随机对照试验,简称RCT。

随机对照试验(RCT)是检测不同治疗或疾病群体间差异的一项强大发明。如果你想了解某种治疗方法是否比对照组或安慰剂组更有效,如果你想要得到一个绝对可靠的答案,RCT 几乎是无可匹敌的。但 RCT 也存在一些问题,这些问题往往被忽视。

今天我们的目标是进行彻底的清理。

首先,随机对照试验(RCT)被视为科学的必要组成部分,但事实上,它们在历史上并不常见。随机对照试验最早发明于1948年,因此大部分科学研究都发生在它们出现之前。伽利略没有使用随机对照试验,胡克、拉瓦锡、达尔文、开尔文、麦克斯韦和爱因斯坦也没有。牛顿也没有使用随机对照试验来推导出微积分或运动定律,而是运用了观察和数学模型。因此,认为随机对照试验和其他实验对科学至关重要的观点既不符合历史事实,也是完全错误的。

如果你问医生他们最确信的发现是什么,他们几乎肯定会把“吸烟致癌”列入其中。但我们并非通过随机分配一些人每天抽一包烟,另一些人戒烟,持续数年时间,来发现这种关联。不,我们运用流行病学证据推断出假定的原因和观察到的结果之间的因果关系。

其次,随机对照试验只是一种工具,而且像所有工具一样,它也有其局限性。它非常适合研究人群层面的差异,或者研究所有患者疗效相似的治疗方法。但如果治疗方法存在显著的异质性,随机对照试验就显得力不从心,常常得出前后矛盾的结论。如果异质性是研究的主要问题,那么它几乎毫无用处。

简而言之,如果人们对某种治疗的反应差异很大,随机对照试验(RCT)的结果只会令人困惑,而不会澄清事实。如果有些人对治疗有强烈的积极反应,而有些人则完全没有反应,那么即使没有一个参与者出现轻微的积极反应,RCT 也会得出治疗有轻微积极反应的结论!

此外,随机对照试验(RCT)效率极低。要检验中等效应量,你需要几十甚至几百名参与者,而且一次只能检验一个假设。每次比较A组和B组,你只能知道哪一组效果更好。比如,你想看看2毫克的剂量是否比4毫克的剂量更好。但如果有十几个因素可能产生影响,你就需要做十几个研究。如果要检验两个假设,你需要两组,每组几十甚至几百名参与者;要检验三个假设,至少需要三组,以此类推。

第三,随机对照试验没有充分利用现代低成本的计算和搜索算法。例如,20世纪80年代,人们对​​针对罕见癌症患者的N=1实验很感兴趣。但在当时,由于计算机资源有限,即使在研究型大学也是如此,因此很难开展这类实验。然而,如今你可以在手机上运行同一个程序上百次。如果我们能充分利用这些新的见解和能力,将会受益匪浅。

最新进展

统计学很年轻,最多也就两百年历史。而我们最熟悉的那些部分,其实也是最年轻的。相关性分析发明于19世纪80年代,并在90年代得到完善。它甚至比火车的历史还要短。

呜呜

事实证明,开发新工具其实挺容易的。随机对照试验固然重要,但它并非高深莫测。新世纪需要新的科学规范。21世纪是信息爆炸、计算成本低廉的时代,我们应该充分利用这种力量。

自科学诞生之初,它就以实验和分享结果为基础。研究人员收集数据,提出理论,并与其他志同道合的怪咖、奇才和书呆子们进行讨论。

新技术让实验和结果分享变得更加便捷。我们说的“新技术”当然指的是互联网。试想一下,如果没有电子邮件,该如何分享实验结果?如果没有OSF、Google Drive或Dropbox,该如何公开数据和资料?或者,如果要合作撰写论文,又该如何把一叠纸邮寄到全国各地?说真的,我们以前就是这样生活的。每个人都曾如此。

人们确实喜欢互联网,我们也听说他们有时会使用它。想必使用量是合理适度的。但就像印刷机虽然发明于1440年,但直到1517年才引发宗教改革一样,互联网(以及计算机、掌上电脑或“电话”)等相关技术尚未得到充分利用。

让我们开动脑筋吧!

说起来容易做起来难,但到了某个时候,你需要考虑如何提出全新的研究方法。

我们从三个主要角度入手:历史视角、类比视角和实践探索。简而言之:研究过去人们如何提出新方法;借鉴其他领域的成功经验,尝试将其应用于科学;观察不同的想法在自然环境中会产生怎样的影响。

我们首先仔细阅读和分析过去成功制定的方案(例如, 坏血病治疗方面的科学创新)。

我们借鉴其他领域成功的实验方案来开发新的科学实验方案。例如,自我实验有点像调试(在座的程序员们应该很熟悉那种对“嗯,它在我的设备上运行正常”的说法抱有怀疑的态度)。即兴演奏试验的开发则借鉴了进化论。

最后,我们会尽快部署这些协议的简化版本,以便进行调整,并从大自然的创造力中获益。这在某种程度上也类似于黑客开发方法和创业理念,例如最小可行产品(MVP)。我们会在新想法成熟后立即进行尝试,并将所有工作成果免费发布到网上,以便其他人也能看到我们的想法并进行改进。

以下是我们梦寐以求的一些极具前景的协议:

N=1

N=1实验/自我实验的概念由来已久,其中一些著名的案例研究包括诺贝尔奖得主巴里·马歇尔(Barry Marshall)自我注射幽门螺杆菌以证明其在胃溃疡和胃癌中的作用。但N=1方案的潜力尚未得到充分发挥。

这种方法还有很大的改进空间,尤其适用于那些患有慢性疾病/病症、令医生束手无策的患者。N=1 研究有一些特殊需要考虑的因素,例如隐变量。你不能简单地套用传统的设计,而需要考虑潜伏期和半衰期等问题。而且,N=1 研究的许多经验教训也适用于样本量较小的情况。

社区试验

社区试验是一种模糊参与者和研究者之间界限的方案。在这些试验中,组织者发布指南和模板,供人们分享数据。参与者收集自己的数据并发送给组织者,组织者汇总并分析结果,并将匿名化后的数据发布到公共数据库中。

数据收集是自主驱动的,因此与传统的随机对照试验不同,参与者可以选择测量其他变量,参与研究的时间可以比要求的更长,并且通常会在研究设计中发挥积极作用。

与大多数 RCT 不同,社区试验允许滚动注册,并且可以发展成为一类新的研究,持续进行,永久开放注册,并拥有不断增长的结果数据库以及用于分析的公共仪表板。

我们首先通过土豆饮食社区试验(公告, 结果)对此进行了测试,该试验有 209 人参加,研究全土豆饮食,其中 64 人完成了 4 周的试验,平均减重 10.6 磅。还不错。

Reddit 审判

社区试验可能会扩展,你可以称之为“Reddit 试验”。

在这个方案中,来自在线社区(例如Reddit子版块)的参与者们,如果都对某个问题或疑难杂症(例如某种不明原因的慢性疾病)感兴趣,就会聚集在一起,提出假设、设计研究、收集数据、进行分析并分享结果。与社区试验类似,参与者可以积极参与研究,测量其他变量,并在研究过程中提出新的假设等等。

人们似乎认为中央权威会让事情变得更好,但我们认为,就设计和发现而言,这种想法大多是错误的。你需要的是市场的混乱,而不是大教堂的僵硬石块。 如果你的读者中有昆虫学家,那么任何漏洞都显得肤浅。

这可能更像是一次社区试验,由一个人(甚至可能是社区外的人)牵头。但如果设计和领导权高度分散,情况也可能与社区试验截然不同。社区内部不同派系之间围绕设计和分析展开的争论,或许反而能使这个过程更加完善。

我们之前在《招聘信息:Reddit 研究沙皇》一文中已经探讨过类似的观点。而帕特里克·科里森也在一条很长的推文中得出了一个密切相关的结论,他说:

观察我身边一些患有慢性疾病的人,我惊讶地发现Reddit常常能发挥意想不到的作用。我认为一个核心原因是,很多疾病都没有进行临床试验,而Reddit提供了一种介于单个医生所能掌握的信息和临床试验的严谨性之间的新兴信息。

……Reddit——尽管结构比较松散——使得有限的“知识累积”成为可能。最佳实践可以被注意到,并开始以不完善的方式积累起来。对于慢性病患者来说,这意义重大。我听过很多这样的故事,从“我找到了一些方法,让我的病情更容易控制”到“我在某个帖子深处一条不起眼的评论里发现了永久治愈方法”。

……看到这篇论文和Reddit上的经验,我不禁思考这种方法是否可以推广:是否存在一种观察性的、自我报告的临床试验,可以介于Reddit和这些人工方法之间?是否应该建立一个平台,涵盖所有主要慢性病,进行持续调查,并追踪长期结果?

我们认为答案显然是肯定的。关键在于人们是否愿意开展这些研究并从经验中学习。这让我们想起了旧版《Slate Star Codex》中关于“建议”与“指南”的论述。

即兴演奏

Riff试验选取一种已经取得一定成效的治疗方法或干预措施,并招募参与者自行选择与原方法密切相关的几种变体。然后对每种变体进行测试,并将结果反馈给组织者。

它利用并行搜索的强大功能,快速测试可能的边界条件,并发现可能优于原始方案的变体。由于每个变体都各不相同,而且未来的注册用户可以利用成功的结果,因此可以基于进化的力量产生改进。

我们在SMTM 土豆饮食 Riff 试验中首次测试了该方案,并报告了四轮结果(第 1 轮、第 2 轮、第 3 轮、回顾性)。

这至少带来了一项发现。我们最初认为摄入乳制品会阻碍土豆减肥法的减重效果,但多项衍生试验表明,即使人们在吃土豆时搭配牛奶、黄油甚至酸奶油,体重依然能够正常下降。看来,摄入乳制品并非土豆减肥法的必要条件,这与最初的设想截然不同。这也似乎推翻了“标准土豆减肥法之所以有效是因为它是单一饮食、乏味或低脂饮食”的观点。如果添加各种乳制品,包括美味的乳制品和高脂乳制品,土豆减肥法仍然有效,那么它又怎么可能因为单一饮食、乏味或低脂而有效呢?

这次试验中也透露出其他一些发现的迹象,比如,即使有一位受试者在饮食中添加了彩虹糖,这种饮食方法仍然有效。但这还有待验证。

“咬子弹”

大多数研究中,参与者都存在某种问题,并希望研究结果有效。如果是减肥研究,他们不仅想减肥,而且不希望减肥效果停止。因此,参与者往往犹豫不决,不敢尝试那些可能会阻止减肥效果的方案。

这导致人们难以检验干预措施中哪些部分真正有效,哪些要素是真正必要或充分的。这使得识别干预措施的真正边界条件变得更加困难。因此,即使最终你得到一个有效的干预措施,你也几乎不知道它为什么有效,也不知道是否存在一个更简单的版本,其效果同样出色,甚至可能更好。

我们对此感到担忧,因此一直在考虑制定一项新的方案,将测试这些界限作为该方案的核心。目前,我们称之为“硬性试验”,因为它引导研究人员和参与者“硬着头皮”(即“为了继续进行而决定做一些困难或不愉快的事情”),尝试一些可能会破坏实验效果的方法。

在该方案中,参与者首先在基线期内测试干预措施,以确认标准干预措施对他们有效。

然后,将它们随机分配到不同的条件下,每种条件都是一个变体,用于测试该效果的理论或怀疑的边界条件(例如“干预有效,但如果我们做 X/不做 Y,它就不会有效。”)。

例如,人们可能会怀疑土豆减肥法之所以有效,是因为它低脂肪、低糖或低植物油。在本方案中,参与者首先要进行两周的标准土豆减肥法,以确认他们对土豆减肥法有反应。毕竟,研究那些没有反应的人的效果毫无意义!然后,任何在基线期内体重减轻达到一定标准的参与者将被随机分配到高脂肪、高糖或高植物油的土豆减肥法变体组,并至少再进行两周。如果这些条件真的存在,并且会彻底阻止体重减轻,那么我们很快就能发现。

通过随机引入潜在的阻碍因素,您可以更深入地了解干预措施的有效性。也许您一直小心翼翼对待的干预措施,在您放松警惕时反而效果很好!更重要的是,您可以检验关于干预措施为何有效的理论,因为不同的理论通常会对干预措施失效的条件做出强有力的预测。此外,这种设计可能有助于我们更好地理解个体之间的差异——它或许会揭示,某些变异对某些人来说是临界条件,但对另一些人则不然。

原文: https://slimemoldtimemold.com/2025/11/17/how-to-diy-new-scientific-protocols/

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Anil Dash
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Big Technology
  • Bits about Money
  • Brandon Skerritt
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • HeardThat Blog
  • Henrique Dias
  • Herman Martinus
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Li Haoyi
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Maggie Appleton
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mind Matters
  • Mostly metrics
  • Naval Ravikant
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • PostHog
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steph Ango
  • Stephen Wolfram
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme