人工智能的设计从底层开始,以防止隐私泄露。
利用你的数据训练人工智能模型可以提供强大的新洞察,但也可能导致敏感信息泄露。现在,谷歌发布了一个全新模型,该模型自下而上地设计,旨在防止此类隐私泄露。
大型语言模型是一种很有前景的方法,可以从大多数公司积累的大量非结构化数据中提取有价值的信息。但这些数据中有很多都包含有关客户、知识产权和公司财务的高度敏感信息。
这是一个问题,因为语言模型往往会记住一些训练数据,并偶尔将其逐字逐句地复述出来。这使得很难确保这些模型不会在错误的语境中向错误的人泄露隐私数据。
一种潜在的解决方法是差分隐私,它允许你从数据中提取洞察,而无需透露底层信息的具体细节。然而,这种方法会显著降低训练人工智能模型的效率,需要更多的数据和计算资源才能达到既定的准确度。
如今,谷歌研究人员已经在隐私保障、计算预算和数据需求之间权衡利弊,最终找到了高效构建隐私保护 AI 模型的方案。他们利用这一策略创建了一个名为 VaultGemma 的 10 亿参数模型,其性能与类似规模的旧模型相当,表明无需完全牺牲性能即可保护隐私。
研究人员在一篇博客文章中写道:“VaultGemma 代表着我们在构建功能强大且设计私密的人工智能方面迈出了重要一步。”
差异隐私涉及在AI训练过程中注入少量噪声或随机数据。这不会改变模型学习到的总体模式和见解,但会混淆特定数据点的贡献。这使得模型更难记住数据集中可能被重复利用的特定细节。
然而,这项技术提供的隐私量(即隐私预算)与训练过程中添加的噪声量成正比。添加的噪声越多,训练过程的效率就越低,需要使用的数据和计算量也就越大。这三个因素以复杂的方式相互作用,使得找到构建具有特定隐私保障和性能的模型的最有效方法变得十分棘手。
因此,谷歌团队利用该公司开源的 Gemma 系列模型进行了一系列实验,改变这些关键参数,以发现它们之间的相互作用。由此,他们提出了一系列缩放定律,并在arXiv的预印本中进行了详细说明,这些定律使他们能够预测计算、数据和隐私预算的变化将如何影响模型的最终性能。
他们的主要见解之一是,除非模型输入更多数据或放松隐私保障,否则在训练期间增加计算能力并不能提高模型的准确性。他们还发现,最佳模型规模比没有差异隐私的模型大约小一个数量级,这表明将该方法扩展到当今最大的模型可能很困难。
然而,缩放定律还能预测特定数据集大小和隐私预算下计算效率最高的训练配置。这使得它们能够将计算需求与其他配置相比降低 5 到 100 倍,同时达到相似的精度。
该团队利用这些见解创建了 VaultGemma,其性能与 OpenAI 于 2019 年发布的类似大小的 GPT-2 模型相当。考虑到人工智能的进步速度,匹配六年前模型的性能并不是一个特别高的标准,但研究人员表示,他们确定的缩放规律应该有助于缩小这一差距。
在模型发布的技术报告中,该团队提供了强有力的证据,证明他们的方法可以防止模型记忆训练数据。他们选取了一百万个训练数据样本,每个样本长度为 100 个 token,并将前 50 个 token 输入模型,看看它是否能够完成样本。虽然三代 Gemma 模型都存在数据重复的问题,但他们没有发现任何证据表明 VaultGemma 记住了任何样本。
虽然 VaultGemma 仍是一个实验模型,尚无实际实用价值,但它表明,相对复杂且能够保护隐私的 AI 模型是可以实现的。希望其他人能够基于这些缩放定律,推动该领域朝着这个方向进一步发展。