Slashdot 读者 BrianFagioli 分享了 Nerds.xyz 的这篇报道:NVIDIA 刚刚发布了新的安全通知,如果你正在运行其一款强大的 GPU,你可能需要注意了。多伦多大学的研究人员表明,Rowhammer 攻击已知会影响普通 DRAM,现在可以在未启用 ECC [错误纠正码] 的情况下针对 NVIDIA 高端 GPU 上的 GDDR6 内存进行攻击。他们使用 A6000 卡进行了实验,并且由于系统级 ECC 被关闭,攻击才有效。一旦打开,攻击就不再起作用。这告诉了你需要知道的一切。ECC 很重要。Rowhammer 已经存在多年了。它是一种奇怪的内存错误,反复访问 RAM 中的一行会导致另一行的位翻转。到目前为止,这主要是 CPU 内存问题。但这项研究表明,它也可能是 GPU 问题,这应该让数据中心管理员和工作站用户暂停一下。 NVIDIA 并非是在拉响警报,而是在提醒大家,保护措施已经到位,但前提是正确使用硬件。如果您的 GPU 支持 ECC,该公司建议启用它。这包括 Blackwell、Hopper、Ada 和 Ampere 系列中的显卡,以及 DGX、HGX 和 Jetson 系统中使用的其他显卡。它还包括 RTX A6000 等热门工作站显卡。某些较新的内存类型(如 GDDR7 和 HBM3)也内置了片上 ECC。如果您有幸使用具有此功能的显卡,那么您将在一定程度上自动受到保护,因为 OD-ECC 无法关闭。它始终在后台运行。但让我们面对现实吧。很多人跳过 ECC,因为它会影响性能,或者因为他们运行的设置无法明确显示 ECC 是打开还是关闭。如果您不确定自己的立场,那么现在是时候检查一下了。 NVIDIA 建议使用 nvidia-smi 之类的工具,或者如果您处于托管企业设置中,则建议使用系统的 BMC 或 Redfish API 来验证设置。
在 Slashdot 上阅读更多内容。