前沿推理模型成功地将法律空间商品化。
几乎每一个主要的基础模型最终都在其自己的 BigLaw Bench 上击败了 Harvey 的内部法律模型,这导致 Harvey 放弃其垂直模型定位,并将自己重新定位为一家将多个模型和工具链接在一起的代理工作流公司。
这很有意思,因为 OpenEvidence 采取了不同的方法。它专注于更小、更专业的模型,这些模型在成为医疗专业人士值得信赖的“副驾驶”方面,表现仍然优于基础模型。
那么,为什么 OpenEvidence 成功了,而 Harvey 却失败了呢?
OpenEvidence 之所以胜出,是因为它能够访问大多数模型无法触及的锁定数据。它获得了《新英格兰医学杂志》全部档案和 JAMA 网络资料的授权,但仍然受到付费墙和机器人文件的保护,然后在该语料库上调整了一个开源模型,并接入了检索功能,确保每个答案都引用了章节和诗句。
通过随机网络爬虫训练的一般模型很少能看到完整的文本,因此它无法自信地引用剂量表或最新的 NEJM 试验。
普通法学硕士通常不会完整地阅读这些期刊,所以他们会猜测剂量表,或者错过一项全新的随机临床试验。临床医生会注意到这一点。在这个医学知识每73天翻一番的时代,唯一安全的捷径就是找到一个能每天为你阅读期刊并展示其成果的模型。
这条护城河很难复制。出版商发现了他们的PDF文件的价值,现在出售的是独家版权,而不是批量订阅。任何挑战者要么出价高于OpenEvidence,要么苦苦挣扎,而OpenEvidence无法通过医院IT的合规性审查。
哈维在法律领域也尝试了同样的伎俩,但却遭遇了两种现实。美国判例法数据早已公开。七百万条意见通过“判例法访问项目”(Caselaw Access Project)发布到网上,任何拥有爬虫工具的人都可以免费获取。GPT-4、Gemini、Claude 以及所有其他基础模型早在哈维出现之前就已在此基础上进行了训练,因此哈维在法律数据方面并无独特的竞争优势。
公开的病例意见不像医学期刊那样具有排他性,但 Harvey 仍然通过与 LexisNexis 的合作,利用付费论文和 LexisNexis 数据,因此确实拥有一些专有来源。然而,这些来源不足以构建一个优于基础模型的内部模型。
Harvey 不得不放弃之前在内部训练前沿规模模型的方法。现在,它只是在目前最流行的基础模型之上,叠加工作流和检索功能。这意味着它的上限就是底层模型的上限。
Harvey 的代理系统可以为每个子任务挑选最佳模型,并添加自定义检索、私有公司知识和结构化评估。这些额外的价值仍然可以提升原始模型输出之外的质量。在 BigLaw Bench 上,Harvey 的协调性确实优于规模较小的基线模型,但 Gemini 2.5 和 GPT 4 变体的最新版本在广泛的法律推理任务上仍然略胜一筹。
医学和法律在知识更新速度上也有所不同。医学证据很快就会过时;一项新的随机临床试验可能会在一夜之间改变实践。法律先例在修订和零散裁决中发展缓慢,因此昨天的案例往往在明天仍然具有现实意义。
与心脏病学或肿瘤学相比,持续重复服用在法律领域赢得的声誉更少。这使得持续获得许可的服用在医学领域比在法律领域更有价值。
垂直人工智能并非因为垂直而获胜。它只有在掌控水平巨头无法触及的数据,并且该领域能够惩罚过时的信息时,才能获胜。医学领域满足这两个条件,而法律领域只满足一个条件。
简而言之,OpenEvidence 通过授权专有、快速更新的数据获得了护城河。
我预计下一个类似 OpenEvidence 的突破将来自期刊被锁定且真相的半衰期以周而不是年来衡量的领域。
原文: https://manassaloi.com/2025/07/20/harvey-openevidence.html