由 GPU 和 Kubernetes 提供支持的虚拟机将运行 AI 工作负载-七爪网

由 GPU 和 Kubernetes 提供支持的虚拟机将运行 AI 工作负载

Run:AI 获取您的 AI 并在未来超快的软件堆栈上运行它。这是我们 2019 年关于 Run:AI 的文章的标题，当时它刚刚退出隐身状态。虽然我们喜欢认为它仍然准确，但 Run:AI 的非常规方法此后得到了快速发展。

自称为“AI 编排平台”的 Run:AI 今天宣布，它已经在由 Tiger Global Management 和 Insight Partners 领投的 C 轮融资中筹集了 7500 万美元，后者领投了之前的 B 轮融资。该轮包括其他现有投资者 TLV Partners 和 S Capital VC 的参与，使迄今为止筹集的资金总额达到 1.18 亿美元。

我们采访了 Run:AI 首席执行官兼联合创始人 Omri Geller，讨论了 AI 芯片和基础设施、Run:AI 的进展以及它们之间的相互作用。

AI 芯片很酷，但 Nvidia GPU 统治
Run:AI 提供了一个名为 Atlas 的软件层来加速机器学习工作负载在本地和云端的执行。本质上，Atlas 充当 AI 工作负载的虚拟机：它抽象并简化了对底层硬件的访问。

这听起来像是一个非正统的解决方案，考虑到人工智能工作负载的传统智慧要求尽可能接近金属，以尽可能多地发挥人工智能芯片的性能。然而，一些好处来自于像 Atlas 这样的东西调解对底层硬件的访问。

在某种程度上，这是 IT 中一个由来已久的难题，再次出现。在软件开发的早期，面临的困境是是使用汇编或 C 等低级语言还是使用 Java 等高级语言进行编程。低级访问提供更好的性能，但另一方面是复杂性。

用于 AI 工作负载的硬件的虚拟化层在抽象和易用性方面提供了相同的好处，此外还有来自简化对硬件的访问的其他好处。例如，提供资源利用率分析的能力或优化工作负载以部署在最合适的硬件上的能力。

然而，我们不得不承认，尽管自 2019 年以来 Run:AI 取得了很多进步，但它并没有像我们想象的那样进步。或者就此而言，正如盖勒自己所想的那样。早在 2019 年，我们就将 Run:AI 视为一种对许多不同 AI 芯片进行抽象的方法。

最初，Run:AI 支持 Nvidia GPU，目标是在后续版本中增加对谷歌 TPU 和其他 AI 芯片的支持。从那时起，时间就充裕了。然而，Run:AI Atlas 仍然只支持 Nvidia GPU。随着该平台以其他重要方式发展，这显然是一个战略选择。

按照盖勒的说法，原因很简单：市场牵引力。 Nvidia GPU 大体上就是 Run:AI 客户仍在用于其 AI 工作负载的。 Run:AI 本身受到了广泛关注，其客户包括 Wayve 和伦敦医学影像与基于价值的医疗保健 AI 中心，涉及金融、汽车、医疗保健和游戏等垂直领域。

如今，除了 Nvidia GPU 之外，AI 工作负载还有很多选择。选项范围从内部开发的云供应商解决方案，如谷歌的 TPU 或 AWS 的 Graviton 和 Trainium，到独立供应商，如 Blaize、Cerebras、GraphCore 或 SambaNova、英特尔在 AWS 上基于 Habana 的实例，甚至使用 CPU。

然而，Geller 从该领域获得的经验是，组织不仅仅是在寻找一种具有成本效益的方式来训练和部署模型。他们也在寻找一种与硬件交互的简单方式，这是 Nvidia 仍然占据主导地位的关键原因。换句话说，它都在软件堆栈中。这与许多分析师的看法一致。

然而，我们想知道卓越性能的承诺是否会吸引组织，或者 Nvidia 的竞争对手是否设法以某种方式缩小了软件堆栈演变和采用方面的差距。

Geller 的经验是，虽然定制 AI 芯片可能会吸引具有特定性能导向配置文件的工作负载的组织，但它们的主流采用率仍然很低。然而，Run:AI 确实看到了对非 Nvidia GPU 的更多需求。无论是 AMD MI200 还是英特尔 Ponte Vecchio，Geller 都认为组织希望在不久的将来使用更多 GPU。

用于人工智能的 Kubernetes
Nvidia 的统治并不是 Run:AI 的产品开发变成现在这样的唯一原因。影响 Run:AI 产品的另一个趋势是 Kubernetes 的兴起。 Geller 认为 Kubernetes 是构建 AI 堆栈的最重要部分之一，因为容器在数据科学以及其他领域得到大量使用。

然而，Geller 继续补充说，Kubernetes 并不是为了在 AI 芯片上运行高性能工作负载而构建的——它是为了在经典 CPU 上运行服务而构建的。因此，为了使用容器高效地运行应用程序，Kubernetes 中缺少很多东西。

Run:AI 花了一些时间来识别它。然而，一旦他们这样做了，他们就决定将他们的软件构建为 Kubernetes 的插件，以创建 Geller 所说的“人工智能的 Kubernetes”。为了避免做出特定于供应商的选择，Run:AI 的 Kubernetes 架构保持了广泛的兼容性。 Geller 表示，该公司已与所有 Kubernetes 供应商合作，用户无论使用何种 Kubernetes 平台，都可以使用 Run:AI。

随着时间的推移，Run:AI 已经建立了一个著名的合作伙伴生态系统，包括戴尔、惠普企业、Nvidia、NetApp 和 OpenShift 等。此外，Atlas平台也在广度和深度上进行了进化。最值得注意的是，Run:AI 现在支持训练和推理工作负载。由于推理通常占 AI 在生产中的大部分运营成本，因此这非常重要。

此外，Run:AI Atlas 现在集成了许多机器学习框架、MLOps 工具和公共云产品。其中包括 Weights & Biases、TensorFlow、PyTorch、PyCharm、Visual Studio 和 JupyterHub，以及 Nvidia Triton Inference Server 和 NGC、Seldon、AirFlow、KubeFlow 和 MLflow。

Geller 说，即使是未预先集成的框架也可以相对容易地集成，只要它们在 Kubernetes 之上的容器中运行即可。就云平台而言，Run:AI 与所有 3 大云提供商（AWS、谷歌云和微软 Azure）以及内部部署合作。 Geller 指出，混合云是他们在客户部署中看到的。

尽管 Run:AI 的市场现实颠覆了一些最初的规划，使公司追求更多的运营选择，而不是扩大对更多 AI 芯片的支持，但这并不意味着技术方面没有取得进展。

Run:AI 的主要技术成就以部分 GPU 共享、精简 GPU 配置和作业交换的名称命名。部分 GPU 共享允许在单个 GPU 上运行多个容器，同时保持每个容器隔离，并且没有代码更改或性能损失。

正如 Geller 所说，在 Kubernetes 下的容器生态系统中，VMware 为 CPU 做了什么，Run:AI 为 GPU 做了什么，没有管理程序。至于自动精简配置和作业交换，它们使平台能够及时识别每个时间点哪些应用程序没有使用分配的资源，并根据需要动态地重新分配这些资源。

值得注意的是，Run:AI 被列入 2021 年第四季度发布的 Forrester Wave AI 基础设施报告。该公司在 AI 基础设施供应商中拥有独特的地位，其中包括云供应商、Nvidia 和 GPU OEM。

盖勒说，他们都是 Run:AI 合作伙伴，因为他们代表了运行应用程序的基础设施。 Geller 将其视为一个堆栈，硬件位于底层，中间层充当数据科学家和机器学习工程师的接口，而 AI 应用程序位于顶层。

Run:AI 的发展势头良好，到 2021 年，其年度经常性收入增长了 9 倍，员工人数增长了 3 倍。该公司计划利用这笔投资进一步发展其全球团队，并将在开发和增强其平台时考虑战略收购。

相关文章

微信