不可避免地,大型企业将收集各种敏感数据。通常,这是他们的客户和员工的个人身份数据 (PII),或者只有少数用户才能访问的其他信息。但随着大型企业收集的数据量增加,手动数据发现和分类无法再扩展。借助Automatic DPL [Data Loss Prevention],Google 最近推出了一款工具,可帮助其 BigQuery 用户在其数据仓库中发现和分类敏感数据,并根据这些发现设置访问策略。自动 DLP 以前是公共预览版,现在普遍可用。
“我们看到很多客户面临的挑战之一是真正了解他们的数据,以便他们能够更好地保护数据,为客户保护 PII 的隐私,满足合规性,或者只是更好地管理他们的数据,”Scott Ellis,谷歌云这项服务的产品经理告诉我。 “我们真的觉得他们面临的挑战之一实际上只是最初的意识或对数据的可见性。”
Ellis 指出,许多公司实施的手动流程无法应对现在传入的数据规模。因此,需要一个自动化系统进入并检查每一列的 PII,例如,确保这些数据不会无意中暴露。
这里还有一个额外的问题是,许多公司还收集大量非结构化数据。 “我们从客户那里听到的最大挑战之一是:当他们有一列电子邮件地址时,很高兴知道。一旦你知道它,你就可以这样对待它。但是,当您拥有非结构化数据时,就会面临一些不同的挑战。您可能有一个注释字段。它超级有价值。但每隔一段时间,就会有人在里面放一些敏感的东西。对待那些有点不同。有时,这些补救措施是不同的,”埃利斯解释说。
为了更轻松地开始使用自动 DLP,该团队为 Google 的 Data Studio 构建了许多新的仪表板模板,让用户可以更轻松地访问高级摘要和更图形化的调查工具。他们还可以使用 Google Cloud Console 深入了解他们的数据,但这并不是最友好的用户体验。当然,他们也可以将这些数据带到 Looker 或其他 BI 工具进行调查,但该团队希望为用户提供一个简单的访问点,让他们可以轻松访问包含大量自己学习成果的数据。
在此版本中,谷歌还为用户提供了新的工具来设置他们的数据被分析的频率和条件。当服务启动时,谷歌团队设置了默认值,但在与客户交谈时,很快就清楚地发现,经常有分析器必须以不同的时间间隔运行的用例。例如,如果有人更改表的模式,一家公司可能希望立即对其进行分析,而另一家公司可能希望等待几天让该表填充新数据。
该团队构建的另一个新功能是与 Google Cloud 的安全分析服务Chronicle的集成。该服务现在可以自动将每个表的风险评分与 Chronicle 同步,并且团队承诺随着时间的推移构建额外的集成。