在其 I/O 开发者大会上,谷歌今天宣布了一个完整的谷歌云新 Cloud TPU v4 Pod 集群的公开预览版。
谷歌在去年的 I/O 上推出了其张量处理单元的第四次迭代,单个 TPU pod 由 4,096 个这些芯片组成。每个芯片的峰值性能为 275 teraflops,每个 Pod 的综合计算能力有望达到 1.1 exaflops 的计算能力。谷歌现在在其俄克拉荷马州数据中心运行一个包含 8 个这样的 Pod 的完整集群,峰值聚合性能高达 9 exaflops。谷歌认为,这使其成为“就累积计算能力而言,世界上最大的公开可用的 ML 中心,同时以 90% 的无碳能源运行。”
“我们已经进行了广泛的研究,以比较公开披露和公开可用的 ML 集群(意思是——在云上运行并可供外部用户使用),”当我要求公司澄清其基准时,谷歌发言人告诉我。 “这些集群由具有 ML 功能的超级计算机提供支持(这意味着它们非常适合 ML 工作负载,例如 NLP、推荐模型等。超级计算机是使用 ML 硬件(例如 GPU(图形处理单元))以及 CPU 构建的“
在 2021 年 I/O 大会上,谷歌首席执行官 Sundar Pichai 表示,该公司很快将在我们的数据中心拥有“数十个 TPU v4 吊舱,其中许多将在 90% 或接近 90% 的无碳能源下运行。我们的 TPUv4 吊舱将于今年晚些时候提供给我们的云客户。”显然,这比计划花费的时间要长一些,但我们正处于全球芯片短缺的中间,而这些毕竟是定制芯片。
在今天宣布之前,谷歌与研究人员合作,让他们可以访问这些 pod。 “研究人员喜欢 TPU v4 通过其快速互连和优化的软件堆栈提供的性能和可扩展性、使用我们新的 TPU VM 架构设置自己的交互式开发环境的能力,以及使用他们首选框架(包括 JAX、PyTorch)的灵活性,或 TensorFlow,”谷歌在今天的公告中写道。那里并不奇怪。谁不喜欢更快的机器学习硬件?
谷歌表示,用户将能够对新的云 TPU v4 集群及其 Pod 进行切片和切块以满足他们的需求,无论是访问四个芯片(这是 TPU 虚拟机的最低要求)还是数千个芯片——但也不会太多,要么,因为只有这么多的筹码可以解决。
截至目前,这些豆荚仅在俄克拉荷马州可用。 “我们对不同地点进行了广泛的分析,并确定俄克拉荷马州拥有卓越的无碳能源供应,是举办此类集群的最佳地点。我们的客户几乎可以从任何地方访问它,”一位发言人解释说。