大量公开授权的(我相信这几乎是全部公共领域的)美国法律案件训练数据集:
该数据集包含来自“案例法访问项目”(Caselaw Access Project)和“法院监听器”(Court Listener)的670万个案例。“案例法访问项目”包含过去365年间近4000万页美国联邦和州法院的判决书及法官意见。此外,“法院监听器”还添加了从479个法院抓取的90多万个案例。
它以 gzip 压缩的换行符分隔的 JSON 形式分发。
这是作为Common Pile的一部分收集的,并用作Comma 系列 LLM 的训练数据集的一部分。
原文: https://simonwillison.net/2025/Jul/16/caselaw-access-project/#atom-everything