谷歌云宣布了用于人工智能工作负载的 TPU 虚拟机 (VM) 的普遍可用性。
一般可用性版本包括一个新的 TPU 嵌入 API,谷歌云声称可以加速大规模、基于 ML 的排名和推荐工作负载
谷歌云表示,通过 Cloud TPU 嵌入加速可以帮助企业降低与排名和推荐用例相关的成本,这些用例通常依赖于运行成本高昂的深度神经网络算法。
“他们倾向于使用大量数据,使用传统的 ML 基础设施进行训练和部署可能既困难又昂贵,”谷歌云在一篇博客文章中说。
“使用 Cloud TPU 嵌入加速可以以较低的成本解决这个问题。嵌入 API 可以有效地处理大量数据,例如嵌入表,通过自动分片到 pod 中的数百个 Cloud TPU 芯片,所有芯片都通过 定制互连。”
同时,TPU VM 旨在支持三个主要框架——TensorFlow、PyTorch 和 JAX——它们通过三个环境提供,以便于使用相应框架进行设置。
谷歌云补充说,TPU 虚拟机使输入数据管道能够直接在 TPU 主机上执行。 通过此功能,用户可以构建自己的客户操作,例如 TensorFlow Text,从而不再受限于 TensorFlow 运行时发布版本。
使用加速器在主机上本地执行还支持分布式强化学习等用例。
“使用 Cloud TPU VM,您可以在连接物理 TPU 硬件的同一主机上以交互方式工作,”Google Cloud 表示。
“我们快速增长的 TPU 用户社区热情地采用了这种访问机制,因为它不仅可以提供更好的调试体验,而且还可以实现某些训练设置,例如分布式强化学习,这在 TPU Node 中是不可行的(网络访问 ) 建筑学。”