一位匿名读者引用了美国国家公共电台(NPR)的报道:波士顿公共图书馆是美国历史最悠久、规模最大的公共图书馆系统之一,今年夏天,它将与OpenAI和哈佛法学院合作启动一个项目,使其珍藏的大量具有历史意义的政府文件更容易被公众获取。这些文件可以追溯到19世纪初,包括口述历史、国会报告以及对不同行业和社区的调查。“这真是一个令人难以置信的原始资料库,涵盖了美国政府出版物所展现的整个历史,”波士顿公共图书馆数字和在线服务主管杰西卡·查佩尔(Jessica Chapel)说道。目前,公众若想访问这些文件必须亲自到场。该项目将增强每份文件的元数据,并使用户能够从世界各地搜索和交叉引用全文。查佩尔表示,波士顿公共图书馆计划在今年年底前将5000份文件数字化,如果一切顺利,该项目将在此基础上进一步扩展。由于这些历史藏品规模庞大且易损,实现这一目标的过程十分艰巨。每件藏品都必须手工扫描。扫描300-400页大约需要一个小时。哈佛大学表示,它可以提供帮助。哈佛法学院图书馆机构数据计划的研究人员正在与图书馆、博物馆和档案馆在多个方面开展合作,包括训练新的人工智能模型,帮助图书馆提升其馆藏的可搜索性。人工智能公司为这些工作提供资金,作为回报,它们可以使用已过版权保护期的高质量资料来训练大型语言模型,从而降低诉讼风险。“让图书馆这样的信息机构参与构建可持续的人工智能数据生态系统至关重要,因为这不仅能增加我们可用的数据量,还能提高数据质量,加深我们对数据内容的理解,”微软知识产权集团副总裁伯顿·戴维斯说道。[…] OpenAI 正在帮助波士顿公共图书馆支付扫描和项目管理等费用。这家科技公司对数字化数据并不拥有专有权。
在 Slashdot 上阅读更多内容。