三个臭皮匠顶个诸葛亮——即使这些臭皮匠不是人类。
尽管大型语言模型非常有用,但它们仍然存在可靠性问题。一项新的研究表明, 一组人工智能团队在美国医师执照考试中合作的准确率可高达 97%,优于任何单一人工智能。
虽然大型语言模型 (LLM) 的最新进展使得系统能够通过专业和学术测试,但其性能仍然不稳定。它们仍然容易出现幻觉——产生看似合理但实际错误的陈述——这限制了它们在医学和金融等高风险领域的应用。
尽管如此,法学硕士(LLM)在医学考试中取得了令人印象深刻的成绩,这表明,如果能够控制其不一致性,这项技术可能在这一领域大有可为。现在,研究人员已经证明,让五个AI模型组成的“委员会”共同商议答案,而不是单独行动,可以在美国医师执照考试(USMLE)中取得破纪录的成绩。
约翰·霍普金斯大学的叶海亚·谢赫在一份新闻稿中表示:“我们的研究表明,当多个人工智能共同商议时,它们在行医执照考试中取得了有史以来最高的成绩。这证明了人工智能系统之间协作与对话的力量,能够获得更准确、更可靠的答案。”
研究人员的方法利用了模型的一个怪癖,这种怪癖源于它们得出答案的不确定性。向同一个模型询问同一个医学问题两次,它可能会得出两个不同的答案——有时正确,有时不正确。
在《公共科学图书馆·医学》杂志的一篇论文中,该团队描述了他们如何利用这一特性来创建他们的人工智能“委员会”。他们启动了 OpenAI 的 GPT-4 的五个实例,并促使它们在由促进者算法监督的结构化交流中讨论每个问题的答案。
当他们的回答出现分歧时,主持人会总结不同的理由并让小组重新考虑答案,重复这个过程直到达成共识。
在对 USMLE 三个阶段的 325 道公开试题进行测试时,AI 委员会的准确率分别达到了 97%、93% 和 94%。这些分数不仅超过了任何单个 GPT-4 实例的性能,也超过了人类在相同测试中的平均通过门槛。
Shaikh 表示:“我们的工作首次明确证明,人工智能系统可以通过结构化对话进行自我纠正,集体的表现优于任何单个人工智能的表现。”
该方法的有效性得到了充分证明:当模型最初意见不一致时,审议过程纠正了超过一半的早期错误。总体而言,即使最初没有达成一致意见,委员会最终也能得出正确结论的概率高达83%。
“这项研究的目的并非评估人工智能的 USMLE 考试能力,”同样来自约翰·霍普金斯大学的合著者 Zishan Siddiqui 在新闻稿中表示。“我们描述了一种通过将人工智能自然的反应多变性视为优势来提高准确性的方法。它允许系统进行多次尝试、比较记录并自我纠正,并且应该将其纳入未来的教育工具中,并在适当的情况下应用于临床护理。”
该团队指出,他们的研究结果来自受控测试,而非现实世界的临床环境,因此距离该人工智能委员会在现实世界中的部署还有很长的路要走。但他们表示,这种方法在其他领域也可能有用。
似乎那句古老的谚语“三个臭皮匠顶个诸葛亮”仍然适用,即使这些臭皮匠不是人类。
人工智能委员会刚刚在美国医师执照考试中取得优异成绩一文最先出现在SingularityHub上。
原文: https://singularityhub.com/2025/10/10/an-ai-council-just-aced-the-us-medical-licensing-exam/