谷歌将一个 9 exaflop 的 Cloud TPU v4 pod 集群发布到公共预览版中

在其 I/O 开发者大会上，谷歌今天宣布了一个完整的谷歌云新 Cloud TPU v4 Pod 集群的公开预览版。

谷歌在去年的 I/O 上推出了其张量处理单元的第四次迭代，单个 TPU pod 由 4,096 个这些芯片组成。每个芯片的峰值性能为 275 teraflops，每个 Pod 的综合计算能力有望达到 1.1 exaflops 的计算能力。谷歌现在在其俄克拉荷马州数据中心运行一个包含 8 个这样的 Pod 的完整集群，峰值聚合性能高达 9 exaflops。谷歌认为，这使其成为“就累积计算能力而言，世界上最大的公开可用的 ML 中心，同时以 90% 的无碳能源运行。”

“我们已经进行了广泛的研究，以比较公开披露和公开可用的 ML 集群（意思是——在云上运行并可供外部用户使用），”当我要求公司澄清其基准时，谷歌发言人告诉我。 “这些集群由具有 ML 功能的超级计算机提供支持（这意味着它们非常适合 ML 工作负载，例如 NLP、推荐模型等。超级计算机是使用 ML 硬件（例如 GPU（图形处理单元））以及 CPU 构建的“

在 2021 年 I/O 大会上，谷歌首席执行官 Sundar Pichai 表示，该公司很快将在我们的数据中心拥有“数十个 TPU v4 吊舱，其中许多将在 90% 或接近 90% 的无碳能源下运行。我们的 TPUv4 吊舱将于今年晚些时候提供给我们的云客户。”显然，这比计划花费的时间要长一些，但我们正处于全球芯片短缺的中间，而这些毕竟是定制芯片。

在今天宣布之前，谷歌与研究人员合作，让他们可以访问这些 pod。 “研究人员喜欢 TPU v4 通过其快速互连和优化的软件堆栈提供的性能和可扩展性、使用我们新的 TPU VM 架构设置自己的交互式开发环境的能力，以及使用他们首选框架（包括 JAX、PyTorch）的灵活性，或 TensorFlow，”谷歌在今天的公告中写道。那里并不奇怪。谁不喜欢更快的机器学习硬件？

谷歌表示，用户将能够对新的云 TPU v4 集群及其 Pod 进行切片和切块以满足他们的需求，无论是访问四个芯片（这是 TPU 虚拟机的最低要求）还是数千个芯片——但也不会太多，要么，因为只有这么多的筹码可以解决。

截至目前，这些豆荚仅在俄克拉荷马州可用。 “我们对不同地点进行了广泛的分析，并确定俄克拉荷马州拥有卓越的无碳能源供应，是举办此类集群的最佳地点。我们的客户几乎可以从任何地方访问它，”一位发言人解释说。

谷歌推出下一代定制人工智能芯片

原文： https://techcrunch.com/2022/05/11/google-launches-a-9-exaflop-cluster-of-cloud-tpu-v4-pods-into-public-preview/