Nvidia 的旗舰活动 GTC 始终是有关 AI 的所有公告的来源。 2021 年秋季版也不例外。 Huang 的主题演讲强调了英伟达所谓的 Omniverse。 Omniverse 是 Nvidia 的虚拟世界模拟和协作平台,用于 3D 工作流程,将其技术整合在一起。
根据我们所见,我们将 Omniverse 描述为 Nvidia 对 Metaverse 的演绎。 您将能够在 Stephanie Condon 和 Larry Dignan 在 ZDNet 上的报道中阅读更多关于 Omniverse 的信息。 我们可以说的是,确实,要使这样的东西起作用,需要技术的融合。
因此,让我们来看看 Nvidia 技术堆栈中的一些更新,重点关注大型语言模型 (LLM) 和推理等组件。
NeMo Megatron,Nvidia 的开源大型语言模型平台
Nvidia 推出了用于训练语言模型的 Nvidia NeMo Megatron 框架。 此外,Nvidia 正在提供 Megatron LLM,这是一个拥有 5300 亿的模型,可以针对新的领域和语言进行训练。
Nvidia 应用深度学习研究副总裁 Bryan Catanzaro 表示,“为新语言和领域构建大型语言模型可能是迄今为止最大的超级计算应用,现在全球企业都可以实现这些功能”。
虽然 LLM 肯定会受到很大的关注和越来越多的应用程序,但该特定产品的实用性值得进行一些审查。 首先,培训法学硕士不适合胆小的人,需要雄厚的财力。 据估计,训练 OpenAI 的 GPT-3 等模型的成本约为 1200 万美元。
OpenAI 与 Microsoft 合作并提供了一个围绕 GPT-3 的 API,以便将其商业化。 关于培训自己的法学硕士的可行性,有许多问题要问。 显而易见的是你是否负担得起,所以我们就说威震天不是针对一般的企业,而是针对特定的企业子集。
第二个问题是——为了什么? 你真的需要自己的法学硕士吗? Catanzaro 指出,LLMS“已被证明是灵活且有能力的,能够回答深层领域的问题、翻译语言、理解和总结文档、撰写故事和计算程序”。
例如,我们不会说 LLM 可以“理解”文档,但我们承认 LLM 足够有用并且会不断变得更好。 Huang 声称 LLM“将成为有史以来最大的主流 HPC 应用程序”。
真正的问题是——为什么要建立自己的法学硕士? 例如,为什么不使用 GPT-3 的 API? 竞争差异化可能是这个问题的合理答案。 价值函数的成本可能是另一个,在古老的“购买与构建”问题的另一个化身中。
换句话说,如果你确信你需要一个 LLM 来支持你的应用程序,并且你计划使用 GPT-3 或任何其他具有类似使用条款的 LLM,通常情况下,培训你自己的可能更经济。 Nvidia 提到了用例,例如构建特定领域的聊天机器人、个人助理和其他 AI 应用程序。
要做到这一点,从预训练的 LLM 开始并通过迁移学习根据您的需求定制它比从头开始训练更有意义。 Nvidia 指出,NeMo Megatron 建立在 Megatron 的进步之上,Megatron 是一个开源项目,由 Nvidia 研究人员领导,研究大规模高效训练大型 transformer 语言模型。
该公司补充说,NeMo Megatron 框架使企业能够克服训练复杂的自然语言处理模型的挑战。 所以,价值主张似乎是——如果你决定投资法学硕士,为什么不使用威震天呢? 虽然这听起来像是一个合理的提议,但我们应该注意到威震天并不是唯一的游戏。
最近,由独立人工智能研究人员组成的集体 EleutherAI 开源了他们的 60 亿参数 GPT-j 模型。 此外,如果您对英语以外的语言感兴趣,我们现在有一个由 Aleph Alpha 精通英语、德语、法语、西班牙语和意大利语的大型欧洲语言模型。 五道是中国的LLM,也是最大的LLM,有1.75万亿个参数,HyperCLOVA是韩国的LLM,有2040亿个参数。 此外,总是有其他的、稍旧/较小的开源 LLM,例如 GPT2 或 BERT 及其许多变体。
针对 AI 模型推理解决总体拥有和运营成本
一个警告是,当涉及到 LLM 时,更大(例如具有更多参数)并不一定意味着更好。 另一个是,即使有像 Megatron 这样的基础作为基础,LLM 的训练和操作也是昂贵的野兽。 Nvidia 的产品也将通过专门针对推理来解决这两个方面的问题。
Nvidia 指出,Megatron 经过优化,可在 Nvidia DGX SuperPOD™ 的大规模加速计算基础设施中横向扩展。 NeMo Megatron 使用数据处理库自动处理 LLM 培训的复杂性,这些库可以摄取、管理、组织和清理数据。 它使用先进的数据、张量和管道并行化技术,使大型语言模型的训练能够高效地分布在数千个 GPU 上。
但是推理呢? 毕竟,至少在理论上,您只训练 LLM 一次,但该模型被多次使用来推断——产生结果。 运行的推理阶段约占 AI 模型运行总能源成本的 90%。 因此,拥有既快速又经济的推理至关重要,并且适用于法学硕士以外的领域。
Nvidia 通过宣布对其 Triton 推理服务器进行重大更新来解决这个问题,因为全球有 25,000 多家公司部署了 Nvidia AI 推理。 这些更新包括开源 Nvidia Triton Inference Server™ 软件和 Nvidia TensorRT™ 的新功能,前者可在所有 AI 模型和框架上提供跨平台推理,后者可优化 AI 模型并为 Nvidia GPU 上的高性能推理提供运行时 .
Nvidia 对 Triton 推理服务器进行了多项改进。 与 LLM 最明显的联系是 Triton 现在具有多 GPU 多节点功能。 这意味着不再适合单个 GPU 的基于 Transformer 的 LLM 可以跨多个 GPU 和服务器节点进行推理,Nvidia 表示这提供了实时推理性能。
Triton 模型分析器是一种工具,可通过帮助从数百种可能性中为 AI 模型选择最佳配置来自动执行关键优化任务。 据 Nvidia 称,它在确保应用程序所需的服务质量的同时实现了最佳性能。
RAPIDS FIL 是用于随机森林和梯度提升决策树模型的 GPU 或 CPU 推理的新后端,它为开发人员提供了深度学习和传统机器学习与 Triton 的统一部署引擎。
最后但同样重要的是,在软件方面,Triton 现在配备了 Amazon SageMaker Integration,使用户能够在 AWS 的完全托管人工智能服务 SageMaker 中使用 Triton 轻松部署多框架模型。
在硬件方面,Triton 现在还支持 Arm CPU 和 Nvidia GPU 以及 x86 CPU。 该公司还推出了 Nvidia A2 Tensor Core GPU,这是一种用于边缘 AI 推理的低功耗、小尺寸加速器,Nvidia 声称其推理性能比 CPU 高出 20 倍。
Triton 在云端、数据中心、企业边缘和嵌入式中提供 GPU 和 CPU 的人工智能推理,集成到 AWS、谷歌云、微软 Azure 和阿里云中,并包含在 Nvidia AI Enterprise 中。 为了帮助向边缘提供基于 Nvidia 人工智能技术的服务,Huang 宣布了 Nvidia Launchpad。
Nvidia 积极行动以保持其在硬件和软件生态系统方面的领先地位
这远不是 Nvidia 今天发布的所有内容。 Nvidia Modulus 构建和训练基于物理的机器学习模型,这些模型可以学习并遵守物理定律。 图形——现代数据科学中的一个关键数据结构——现在可以通过新的 Python 包 Deep Graph Library 或 DGL 投射到深度神经网络框架中。
Huang 还介绍了三个新库:ReOpt,用于价值 10 万亿美元的物流行业。 cuQuantum,加速量子计算研究。 和 cuNumeric,为 Python 社区的科学家、数据科学家、机器学习和 AI 研究人员加速 NumPy。 Nvidia 在 GTC 上推出了 65 个新的和更新的 SDK。
那么,这一切是怎么回事呢? 尽管我们经过精心挑选,但这些项目中的每一项都可能需要进行单独的分析。 总体情况是,Nvidia 再一次积极主动地保持领先地位,齐心协力将其硬件与软件联系起来。
在这一点上,对于大多数组织而言,法学硕士可能看起来很陌生。 尽管如此,Nvidia 仍押注他们将看到更多有趣和实用的应用程序,并将自己定位为 LLM 平台,供其他人在此基础上构建。 尽管存在替代方案,但对许多组织而言,策划、支持和捆绑 Nvidia 的软件和硬件生态系统及品牌可能看起来是一个有吸引力的提议。
对推理的关注也是如此。 面对一系列基于专为 AI 工作负载设计的架构的硬件供应商的竞争日益激烈,Nvidia 正在加倍投入推理。 这是 AI 模型运营的一部分,在总拥有成本和运营成本中发挥着最大的作用。 Nvidia 再一次以其标志性的风格来做这件事——将硬件和软件整合到一个生态系统中。