“惊人”的人工智能可提前几十年预测1000多种疾病

经过超过 400,000 份患者记录的训练，该人工智能可以预测长达 20 年的健康轨迹。

还记得你上次去看医生吗？他们很可能询问了你的病史。

对于许多疾病而言，这些信息不仅与诊断和治疗相关，而且对预防也具有重要价值。得益于人工智能，一系列算法现在可以根据病历预测单一疾病的风险，例如心血管疾病和癌症。

但疾病并非凭空而来。某些疾病可能会增加其他疾病的风险。全面了解一个人的健康轨迹可以预测一系列疾病的风险。这不仅可以为早期治疗提供信息，还可以发现易感人群，以便进行筛查和其他预防措施。它还可以识别出那些可能患上某种疾病（例如高血压或乳腺癌）但不一定符合常规标准的人群。

最近，德国癌症研究中心的一个团队及其合作者发布了一款人工智能“预言机” ，可以预测一个人未来几十年患上1000多种常见疾病的风险。这款名为Delphi-2M的人工智能系统是一种大型语言模型，类似于当前流行的聊天机器人所使用的算法。

然而，该团队并没有用文本训练人工智能，而是向其输入了来自英国生物银行（UK Biobank）的超过40万份医疗记录。英国生物银行是一项追踪参与者年龄增长过程中健康状况的大规模研究。在添加了体重、吸烟和饮酒习惯等生活方式信息后，Delphi 可以预测任何参与者至少二十年内患多种疾病的几率。

尽管该人工智能仅基于生物库队列进行训练，但它在不改变任何设置的情况下绘制出了丹麦近200万人的健康轨迹，这表明它已经抓住了疾病风险及其相互作用的关键。德尔菲法也具有可解释性，因为它阐明了评估的基本原理。

安格利亚鲁斯金大学的贾斯汀·斯特宾 (Justin Stebbing) 表示，该工具是一项“成就”，它为医疗保健领域设定了“预测准确性和可解释性的新标准”，但他并未参与这项研究。

镜子

医疗保健正在从治疗转向预防。但个体指导可能会令人困惑。以乳房X光检查为例。关于开始检查的年龄建议已从40岁推迟到50岁，然后又回到40岁。更广泛地说，随着世界老龄化，对癌症、痴呆症和其他疾病负担进行建模，可以帮助医疗保健系统更好地应对所谓的“银色海啸”。

这就是医疗AI的用武之地。早期的工具是根据医学图像来诊断病情。但大型语言模型开辟了一条全新的预测途径。

这些算法和经典的疾病模型拥有共同的逻辑。人工智能将语言采样为一系列单词片段，这些片段被称为“标记”（token）。然后，它会根据从网上爬取的资源中学习到的文本，逐个生成响应。有了足够的训练数据，人工智能就能学习到各个标记之间的统计关联，并生成类似人类的响应。

预测疾病进展也有些类似。如果疾病进展的每一步都是一个标记，那么预测下一步就意味着从统计学角度确定这些标记之间的联系。科学家们已经使用基于电子健康记录训练的大型语言模型算法来预测包括癌症、中风和自残在内的单一疾病。

但同时治疗多种疾病又是另一回事。

今年早些时候，一款名为 Foresight 的人工智能将医疗预测提升到了一个新的高度。Foresight 基于英国国家医疗服务体系 (NHS) 的 5700 万份匿名健康记录进行训练，学会了预测住院、心脏病发作以及数百种其他疾病，但出于隐私方面的考虑，该算法仅限于新冠肺炎 (Covid-19) 的研究。

导盲犬

德国团队设计的 Delphi 系统将每种疾病的诊断代码识别为一个标记。这些代码在全球范围内是标准化的。随后，该团队修改了大型语言模型，以纳入新的信息（例如血液检测结果），从而重新评估其预测。

Delphi 训练了超过 40 万份涵盖 1,258 种疾病的综合健康记录，并结合了性别、体重指数和其他自我报告的生活方式指标（包括吸烟和饮酒习惯）等因素。该 AI 能够根据年龄和其他人口统计模式，快速发现人口层面的趋势。例如，水痘的发病率在婴儿期达到峰值，而哮喘则倾向于持续存在。一个人的生理性别也会对糖尿病、抑郁症和心脏病发作的风险产生显著影响。

对于大多数疾病，Delphi 的表现与临床风险评分检查和针对具体疾病的医疗 AI 预测器相当，甚至更胜一筹。在预测某些疾病的风险方面，它的表现甚至领先于其他分析生物标志物（通常是血液中的特定蛋白质或其他分子）的算法，甚至可以提前二十年预测。

研究团队写道，德尔福“具有巨大的优势，可以同时评估 1,000 多种疾病及其在任何特定时间的发生时间”。

人工智能在分析心血管疾病和痴呆症方面尤其有用，因为这两种疾病的发展模式都相对稳定。然而，它在分析2型糖尿病方面却举步维艰，因为这种疾病的发展轨迹会随着生活方式的变化而变化。

接下来，他们用近两百万份丹麦健康记录向 Delphi 发起挑战，无需调整算法。该数据库名为丹麦国家患者登记处，包含近半个世纪的医疗记录。Delphi 的预测准确率几乎没有下降，这表明该人工智能可以推广到其训练数据集以外的健康记录数据集。

Delphi 还有其他优势。首先，它可以生成合成的医疗记录数据并从中学习，从而降低侵犯参与者隐私的风险。此外，该人工智能还能“自我解释”。某些疾病，例如糖尿病，与其他健康问题相关，例如患者的视力问题或周围神经问题。Delphi 将这些症状聚集在一起，这对于探索这些关联背后的基因或细胞驱动因素的科学家非常有用。

该团队强调，Delphi 仅揭示关联性，而非因果关系。但他们构建的人工智能能够轻松整合其他数据——例如基因组、诊断图像、生物标记，甚至可穿戴设备的数据——以进一步改进其预测。他们目前正在其他国家和人群中测试该工具。

与其他人工智能算法一样，Delphi 会根据训练数据进行预测，这其中也包含偏差。英国生物银行的健康记录通常偏向白人、中年人和受过教育的人。对于癌症患者，只有幸存的患者才会被纳入数据库，这也可能影响人工智能的预测。80 岁及以上人群的数据非常有限，因此 Delphi 无法可靠地模拟他们晚年的健康轨迹。

即便如此，人工智能仍可以帮助找到那些可以从诊断测试或筛查项目中受益的人——比如乳腺癌——即使他们不符合常规标准。

未参与该项研究的伦敦国王学院的古斯塔沃·苏德雷 (Gustavo Sudre)表示：“这项研究看起来是朝着可扩展、可解释，以及——最重要的是——符合伦理道德的医学预测模型迈出的重要一步。”

文章“令人震惊的”人工智能提前几十年预测了 1,000 多种疾病，最先出现在SingularityHub上。

原文： https://singularityhub.com/2025/09/22/astonishing-ai-predicts-over-1000-diseases-decades-in-advance/