5 月 28 日,在台北举行的 COMPUTEX 大会上,NVIDIA 宣布推出一系列新硬件和网络工具,其中许多都专注于支持人工智能。 新阵容包括 1 exaflop 超级计算机 DGX GH200 级; 超过 100 个系统配置选项,旨在帮助企业满足人工智能和高性能计算需求; 用于加速服务器的模块化参考架构; 以及围绕基于以太网的人工智能云构建的云网络平台。
这些公告以及自 COVID-19 大流行开始以来联合创始人兼首席执行官黄仁勋发表的首次公开演讲帮助推动 NVIDIA 实现了令人垂涎的 1 万亿美元市值。 这样做将使其成为第一家跻身微软和苹果等科技巨头领域的芯片制造商。
用于 AI 超级计算机的 DGX GH200 有何不同?
NVIDIA 的新型 AI 超级计算机利用 GH200 Grace Hopper 超级芯片和 NVIDIA NVLink 交换机系统互连来运行生成式 AI 语言应用程序、推荐系统(用于预测用户对产品或内容的评价的机器学习引擎)、 和数据分析工作负载。 它是首款同时使用高性能芯片和新颖互连的产品。
NVIDIA 将首先向 Google Cloud、Meta 和 Microsoft 提供 DGX GH200。 接下来,它计划向云服务提供商和其他超大规模提供商提供 DGX GH200 设计作为蓝图。 预计将于 2023 年底推出。
DGX GH200 旨在让组织从自己的数据中心运行人工智能。 每个单元中的 256 个 GH200 超级芯片提供 1 exaflop 的性能和 144 TB 的共享内存。
NVIDIA 在公告中解释说,NVLink 交换系统使 GH200 芯片能够绕过传统的 CPU 到 GPU PCIe 连接,从而增加带宽,同时降低功耗。
谷歌云计算副总裁 Mark Lohmeyer 在 NVIDIA 新闻稿中指出,新的 Hopper 芯片和 NVLink 交换系统可以“解决大规模人工智能的关键瓶颈”。
微软 Azure 基础设施公司副总裁 Girish Bablani 在 NVIDIA 新闻稿中表示:“训练大型 AI 模型传统上是一项资源和时间密集型任务。” “DGX GH200 具有处理 TB 级数据集的潜力,这将使开发人员能够以更大的规模和更快的速度进行高级研究。”
NVIDIA 还将保留一些超级计算能力; 该公司计划开发自己的超级计算机 Helios,由四个 DGX GH200 系统提供支持。
NVIDIA 超级计算芯片的替代品
以 NVIDIA Grace Hopper 芯片实现的人工智能和超级计算速度为目标的公司或客户并不多。 NVIDIA 的主要竞争对手是 AMD,它生产 Instinct MI300。 该芯片包括 CPU 和 GPU 内核,预计可运行 2 exaflop El Capitan 超级计算机。
英特尔提供了 Falcon Shores 芯片,但它最近宣布该芯片不会同时配备 CPU 和 GPU。 相反,它改变了路线图,将重点放在人工智能和高性能计算上,但不包括CPU核心。
企业库支持AI部署
另一项新服务是 NVIDIA AI Enterprise Library,旨在帮助组织访问新 AI 产品的软件层。 它包括 100 多个框架、预训练模型和开发工具。 这些框架适用于生产型人工智能的开发和部署,包括生成型人工智能、计算机视觉、语音人工智能等。
NVIDIA AI 专家将提供按需支持,帮助部署和扩展 AI 项目。 它可以帮助在 VMware 和 Red Hat 的数据中心平台或 NVIDIA 认证的系统上部署 AI。
NVIDIA 网络高级副总裁 Gilad Shainer 在一份新闻稿中表示:“NVIDIA Spectrum-X 是一种新型以太网网络,它消除了下一代人工智能工作负载的障碍,有可能改变整个行业。”
Spectrum-X 可以通过单个交换机连接的 256 个 200Gbps 端口或两层脊叶拓扑中的 16,000 个端口来支持 AI 云。
Spectrum-X 通过利用 Spectrum-4 来实现这一点,Spectrum-4 是一款专为 AI 网络构建的 51Tbps 以太网交换机。 NVIDIA 表示,先进的 RoCE 扩展将 Spectrum-4 交换机、BlueField-3 DPU 和 NVIDIA LinkX 光学器件结合在一起,创建了一个针对 AI 云进行优化的端到端 400GbE 网络。
Spectrum-X 及其相关产品(Spectrum-4 交换机、BlueField-3 DPU 和 400G LinkX 光学器件)现已上市,包括与 Dell Technologies、Lenovo 和 Supermicro 的生态系统集成。
MGX 服务器规范即将推出
在有关数据中心加速性能的更多新闻中,NVIDIA 发布了 MGX 服务器规范。 它是致力于人工智能和高性能计算的系统制造商的模块化参考架构。
NVIDIA GPU 产品副总裁 Kaustubh Sanghani 在一份新闻稿中表示:“我们创建 MGX 是为了帮助组织引导企业人工智能。”
制造商将能够在初始的基本系统架构中指定他们的 GPU、DPU 和 CPU 首选项。 MGX 与当前和未来的 NVIDIA 服务器外形尺寸兼容,包括 1U、2U 和 4U(风冷或液冷)。
软银目前正致力于在日本建立一个数据中心网络,该网络将使用 GH200 超级芯片和 MGX 系统来提供 5G 服务和生成人工智能应用。
QCT 和 Supermicro 已采用 MGX,并将于 8 月上市。
数据中心管理将发生哪些变化?
对于企业来说,向数据中心添加高性能计算或人工智能将需要改变物理基础设施设计和系统。 是否这样做以及多少取决于个人情况。 施耐德电气解决方案架构师副总裁 Joe Reele 表示,许多大型组织已经开始让其数据中心为人工智能和机器学习做好准备。
“功率密度和散热是这一转变背后的驱动因素,”Reele 在给 TechRepublic 的电子邮件中表示。 “此外,在考虑诸如较短的电缆线路和集群等需求时,IT 套件在空白领域为 AI/ML 构建的方式也是一个驱动因素。”
Reele 表示,企业自有数据中心的运营商应根据其业务优先级来决定更换服务器和升级 IT 设备以支持生成式 AI 工作负载是否有意义。
“是的,新服务器在计算能力方面会更高效、更强大,但运营商必须考虑计算利用率、碳排放等因素,当然还有空间、电力和冷却。 虽然一些运营商可能需要调整他们的服务器基础设施策略,但许多运营商在短期内不需要进行这些大规模更新,”他说。