每隔几个月,人工智能行业就会对最新的机器学习计算机系统进行一次测试。
该会议已持续数年,通常关注由 Nvidia 和 Qualcomm 等芯片供应商及其合作伙伴(如戴尔)组装的多处理器计算机的最佳性能,并根据一组基准测试任务进行衡量 例如目标检测和图像分类。
今年,bake-off 有了一个新的转折点:检查这种大规模并行计算机系统的能源消耗,以此作为产品能效的一种代表。
测试 MLPerf 现在增加了行业标准测量值,用于衡量我们为给定任务消耗的焦耳电量(以瓦特为单位)。
这项工作是 MLCommons 的执行董事 David Kanter 领导的大约一年半努力的结果,MLCommons 是负责监督 MLPerf 的行业联盟,
“我真正感到兴奋的一件事是 MLPerf 功率项目,这就是我们如何进行全系统功率测量,”坎特在新闻发布会上讨论了 MLPerf 结果,该结果于周三通过新闻发布 .
正如该组织所说,Power Project 测量“整个系统在执行性能基准时消耗的平均交流功率(和隐式能量)”。
因此,由一定数量的芯片组成的给定计算机将被指定为在给定任务的给定每秒查询性能速率下“平均”任务的给定瓦特数或焦耳数。
测量的系统是服务器计算机或边缘计算机。 服务器计算机将包括戴尔 PowerEdge 服务器等系统,配备两个英特尔至强处理器和四个运行大部分人工智能工作的 Nvidia T4 加速器。
相比之下,边缘计算机可以是带有一个基于 ARM 的 Cortex-A72 处理器但没有加速器的 Raspberry Pi 机器,或者是带有一个 Nvidia“Carmel”加速器芯片的 Nvidia Jetson AGX Xavier 服务器。
MLPerf 数字从不报告提交内容的优越性,而是提供包含结果的电子表格并让其他人得出自己的结论。
MLPerf 这次有 16 个提交者,包括英伟达、高通、戴尔、初创公司 Krai 和富士通。 并非每个提交都提供功率测量,但 MLCommons 总共能够获得 850 种不同的测量结果。
根据报告的瓦数和性能,需要一些算法来得出有关机器能效的结论。
例如,在使用 ResNet 处理 1500 万个 ImageNet 数据集的机器类别中,将每秒查询次数除以总瓦数表明高通系统使用两个 16 核 AMD Epyc 处理器和五个高通云 AI 100 处理器每次查询的瓦数最低,每次查询 0.0068 瓦。 戴尔的系统是一个配备英特尔处理器和 Nvidia T4 芯片的 PowerEdge,每次查询耗电量为 0.036 瓦。
消耗的能量和速度方面的性能通常是权衡取舍的:一个可以优化一个而降低另一个。 系统制造商在构建计算机时必须考虑这两个因素,牢记允许系统消耗多少能量,以及它应该以多快的速度完成工作。
在实践中,计算机通常被调整为优化其中之一,性能或能源效率,而不是真正平衡两者。
“总的来说,如果你看一下大多数硅技术,就会发现电压和频率之间存在权衡,”坎特在新闻发布会上这样描述此事。 “一般的经验法则是,当你的电压上升或下降时,这将倾向于通过电压变化的平方来驱动功率上升或下降。” 通常会提高电压以提高时钟频率的性能。
这些测试允许提交的公司使用他们自己的神经网络算法版本,或者使用标准模型,与其他人一样。 因此,例如,在第一种情况下,称为“开放”,供应商可能会提交运行 Mobilenet 的结果,Mobilenet 是一种资源高效的网络卷积神经网络,由 Andrew G. Howard 及其在谷歌的同事于 2017 年推出。 在“封闭”组中,每个人都会使用已经使用多年的标准 ResNet 卷积神经网络。
因此,该报告提供的功率数字不仅反映了机器的能效,还反映了给定神经网络算法的能效。
个人贡献者对能量测量提出了警告。 一方面,芯片的使用量与闲置量(即所谓的总利用率)会影响其能效。
“在边缘进行推理时,你有流数据,你甚至没有使用峰值 TOPS [每秒万亿次操作] 的 10%,同时你消耗了大量静态功率,”Hamid Reza Zohouri,负责人说。 加速器芯片初创公司 EdgeCortix 的产品。 “所以利用率,你如何利用你的芯片,可以发挥很大的作用,有可能获得更好的实际功率效率,因为你不会在已用资源上浪费闲置功率。”
一些供应商告诫说,尽快完成工作仍然是最重要的。
“很多时候,如果有一定数量的工作要完成,那么更快地完成工作通常是一件好事,”NVIDIA 加速计算集团产品营销高级经理 Dave Salvator 评论道。
“在实时应用程序的情况下,问题在于能够实时为您的客户提供服务并达到您的 SLA 并提供出色的用户体验。”
目前,报告的功率数据可能更有助于了解一些最大的神经网络的一般能源消耗习惯。
例如,要使用谷歌的 BERT 语言模型来回答来自斯坦福问答数据集或 SQuAD 1.1 版的问题,这是一个基于维基百科数据的众包问答集,所有系统的平均速度约为 16,398 次查询 每秒回答,处理成本为 2.4 千瓦。 因此,每秒几千瓦是衡量不断回答问题的能源成本的一种方式。
可以想象,定期测量这些数据可以为未来关于 AI 能源成本的讨论提供更好的观点。
本月的基准测试也是 MLPerf 首次作为 MLCommons 的一部分发布,MLCommons 于 12 月首次亮相。
MLCommons 将自己标榜为一个行业-学术合作伙伴关系,其广泛的任务是“推进最新人工智能和机器学习数据集和模型、最佳实践、基准和指标的开发和访问”。
MLCommons 有一个创始委员会,成员包括来自阿里巴巴、Facebook AI、谷歌、英特尔和 NVIDIA 的代表,以及负责哈佛大学边缘计算实验室的副教授 Vijay Janapa Reddi。