Facebook可能因帮助迎来“假新闻”时代而臭名昭著;但它也试图在后续行动中为自己找到一席之地:与它进行永无止境的战斗。在这方面的最新进展中,Facebook 的母公司 Meta 今天宣布了一个名为 Sphere 的新工具,这是一种人工智能工具,它围绕利用开放网络上的大量信息库为人工智能和其他系统工作提供知识库的概念而构建。 Meta 说,Sphere 的第一个用户是 Wikipedia,它正在使用它来自动扫描条目并识别其条目中的引用何时受到强烈支持或较弱支持。
研究团队开源了Sphere——目前基于 1.34 亿个公共网页。
以下是它的工作原理:
将 Sphere 用于 Wikipedia 背后的想法很简单:在线百科全书有 650 万条条目,平均每月添加约17,000篇文章。这背后的 wiki 概念实际上意味着添加和编辑内容是众包的,虽然有一个编辑团队负责监督这一点,但这是一项日益艰巨的任务,不仅因为它的规模,而且因为它的任务,考虑到有多少人、教育工作者和其他人依赖它作为记录库。
与此同时,监督维基百科的维基媒体基金会一直在权衡利用所有这些数据的新方法。上个月,它宣布了一个企业层和它的前两个商业客户谷歌和互联网档案馆,它们使用基于维基百科的数据来实现自己的业务生成利益,现在将围绕这一点签订更广泛、更正式的服务协议。
需要明确的是,今天关于 Meta 与 Wikipedia 合作的公告并未提及 Wikimedia Enterprise,但通常会为 Wikipedia 添加更多工具,以确保其拥有的内容经过验证且准确,这将是 Enterprise 服务的潜在客户想要的东西了解何时考虑支付服务费用。
目前尚不清楚这笔交易是否使维基百科成为 Meta 的付费客户,反之亦然——例如,Meta 成为企业客户,以便更多地访问数据以在 Sphere 上工作。 Meta 确实指出,为了训练 Sphere 模型,它创建了“一个包含 400 万维基百科引用的新数据集 (WAFER),比以往用于此类研究的复杂得多。”就在五天前,Meta 宣布维基百科的编辑们也在使用它建立的一种新的基于 AI 的语言翻译工具,显然这两者之间存在关系。
我们已经询问并将更新这篇文章,因为我们知道更多。
现在,关于 Sphere 的更多细节以及维基百科如何使用它,以及接下来可能会发生什么:
— Meta 认为 Sphere 所代表的“白盒”知识库比典型的“黑盒”知识源拥有更多的数据(并且暗示更多的来源要匹配以进行验证),例如,专有搜索引擎。 “由于 Sphere 可以访问比今天的标准模型更多的公共信息,它可以提供他们无法提供的有用信息,”它在一篇博客文章中指出。 Meta 用来汇集和训练 Sphere 的 1.34 亿个文档被分成 9.06 亿个段落,每个段落 100 个标记。
— 通过开源这个工具,Meta 的论点是它比任何基于专有的基础都为 AI 训练模型和其他工作奠定了更坚实的基础。尽管如此,它承认知识的基础可能是不稳定的,尤其是在这些早期。如果“真相”没有像错误信息那样被广泛报道怎么办?这就是 Meta 希望将其未来工作重点放在 Sphere 上的地方。 “我们的下一步是训练模型来评估检索到的文件的质量,检测潜在的矛盾,优先考虑更可靠的来源——如果没有令人信服的证据,承认他们和我们一样,仍然会被难倒,”它指出。
— 沿着这些思路,这引发了一些有趣的问题,即与其他知识库相比,Sphere 的真理层次将基于什么。这个想法似乎是因为它是开源的,用户可能有能力以更适合自己需求的方式调整这些算法。 (例如,与时尚或体育知识库相比,法律知识库对法庭文件和判例法数据库的可信度可能更高。)
— 我们已经询问过 Meta 是否在 Facebook 和 Instagram、Messenger 等自己的平台上使用 Sphere 或其版本,但尚未得到答复,这些平台本身长期以来一直在努力应对来自不良行为者的错误信息和毒性。 (我们还询问了是否有其他客户在排队购买 Sphere。)
— 可以说,目前 Wikipedia 的规模已经超过了任何规模的人类团队单独可以检查的准确性,因此这里的想法是 Sphere 被用于同时自动扫描数十万条引文,以发现引文没有太多的时候支持更广泛的网络:“如果引用似乎无关紧要,我们的模型将提出一个更适用的来源,甚至指向支持该主张的特定段落,”它指出。听起来编辑们可能正在选择现在可能需要验证的段落。 “最终,我们的目标是建立一个平台,帮助维基百科编辑系统地发现引用问题,并快速修复引用或大规模更正相应文章的内容。”