人工智能工业应用最紧迫的问题之一是如何在处理能力极低、内存极小且可用能量有限(例如电池)的小型计算设备上运行程序。
所谓的人工智能边缘市场最近是一个巨大的领域,初创公司获得了数千万的风险投资来开发芯片和软件。 边缘努力导致了用于人工智能机器学习形式的特殊开发工具,例如谷歌的 TinyML 计划。
这两条路径代表了两种理念:要么使边缘设备更强大,要么精简 AI 程序以使用更少的计算。
另外:人工智能的真正目标可能不再是智能
还有第三种可能的方法,那就是更仔细地尝试和平衡在受限设备上完成的工作以及通过什么方式完成的工作。 这是麻省理工学院研究人员 10 月份在学术期刊《科学》上提出的计划。
麻省理工学院电子研究实验室、计算机科学和人工智能实验室以及林肯实验室的研究员 Alexander Sludds 及其同事与诺基亚和 NTT Research 合作,开发了一种系统,该系统使用光子学将数据传输到客户端设备,并在客户端设备上进行计算 在光学领域以更加节能的方式。
他们称之为 Netcast 的网络设置可以执行操纵深度神经网络的权重或参数的基本操作,使用大约 10 飞焦耳或 10 fJ 的功率,他们认为“是三个数量级” 低于现有数字 CMOS 中可能的水平”——意思是标准半导体芯片。
飞焦耳,写成小数点后跟 14 个零和一个 1,是千万亿分之一,是焦耳的一个非常小的分数,焦耳是运行 1 瓦设备一秒钟的电量。
作者指出,这一极小的一瓦特是一种主要的节能并且很重要,因为与使用数十或数百瓦特的典型计算设备相比,许多边缘设备的总功率预算将以毫瓦或千分之一瓦为单位 . Netcast 的 femtoJoule 操作有效地使程序低于迄今为止“接近 1 pJ 的顽固瓶颈”,也就是一皮焦耳,或万亿分之一焦耳。
另外:人工智能边缘芯片市场火热,由“惊人”的风险投资点燃
Netcast 的关键是如何减少客户为神经网络的基本操作而必须执行的工作,以达到 10 飞焦耳的预算。
神经网络通过将一些输入数据传递给它的参数或权重,并将输入乘以权重来进行预测。 这种数学运算,即输入向量和参数矩阵的乘积,称为乘法累加或 MAC 运算,随着每个网络层的多个权重应用于输入,神经网络程序每秒执行大量运算 .
一般来说,对于大多数神经网络来说,最大的耗电是从 RAM 内存芯片中获取数据并访问网络。 这是一个问题,因为神经权重通常存储在 RAM 中,因此 MAC 操作的每一层都需要通过 PCIe 总线多次传输到 RAM,甚至可能到用于远程内存存储的网络线路卡。
因此,Netcast 的关键是如何最大限度地减少客户端设备的内存访问和网络流量。
解决方案是一种称为波分复用的现有光子技术。 使用通常所说的 WDM,可以通过光纤线路同时发送多条数据,方法是为每条数据分配其自己的光波长,以便多条数据共享光纤中的总可用辐射光谱。 WDM是一种非常成熟、扎实的技术,用于所有现代电信网络,以增加光纤数据传输的容量; 它构成了互联网的支柱。
矩阵的每一行都可以在光的波长上进行编码,然后“广播”到客户端设备,因此多波长 WDM 信号可以发送整个权重矩阵甚至多个矩阵。 在客户端设备上,光接收器恢复编码在每个波长中的数据,并将其与输入数据组合以在光域而不是电域中执行矩阵乘法。 一旦从光信号转换,产品就可以电存储在本地 RAM 上。
Sludds 和团队写道,这导致需要位于边缘客户端设备中的组件得到显着简化。
“这种架构最大限度地减少了客户端的有源组件,只需要一个光收发器调制器、数模转换器 (DAC) 和模数转换器 (ADC)。”
作者构建了一个实际版本的 Netcast,它使用每秒 2.4 太比特容量的 WDM 运行超过 84 公里的光纤,从麻省理工学院主校区到林肯实验室并返回。 他们对该系统的测试是对经典的机器学习任务(手写字符的 MNIST 数据库)进行预测。 手写字符的图像被输入到神经网络,网络必须执行图像识别任务,识别每张图片代表哪个字符。
“在本地使用 1,000 张测试图像,我们展示了 98.7% 的准确计算,与模型的 98.7% 的基线准确度相当,”他们报告说。
作者走得更远。 预计在卫星和其他异国情调的地方部署,他们致力于开发光电探测器,称为集成接收器,可以处理非常少量的光子。
“网络广播的应用,包括自由空间部署到无人机或航天器,可以在极度缺乏光子的环境中运行,”他们写道。 他们的集成接收器的一个版本能够检测到 MAC 运算的结果,其运行速度仅为飞焦的几分之一,称为阿托焦耳,MAC 运算仅需要 100 个光子。
但作者走得更远。 他们能够一直达到 Netcast 的理论极限,即每台 Mac 需要检测到的光子少于一个。 使用所谓的超导纳米线单光子探测器 (SNSPD),他们构建了一个接收器,可以用不到一个光子的信息来测量每个 MAC 的结果。
“鉴于每个 MAC 少于一个光子是违反直觉的,这个结果乍一看似乎令人惊讶,”Sludds 和团队写道。 “我们可以更好地理解这种测量,注意在读出时,我们执行了 M = 100 MAC 的矢量-矢量乘积。每个 MAC 中可以包含少于一个光子,但测量信号中将包含许多光子。 “
对计算的影响可能是深远的。
“实现每个 MAC 少于一个光子的计算,”他们写道,“从数据隐私的角度来看,”可以实现一类新的计算系统,保护客户端输入和服务器权重数据。 它还可以使航天器上的计算更加可靠。 “来自定向基站的重量数据可以传输到航天器并在飞行器上分类,然后再将结果传输到地球。”
Sludds 和团队指出,Netcast 的所有部件现在都可以在任何标准的半导体芯片工厂生产。
最后,他们写道,“我们的方法消除了边缘计算中的一个基本瓶颈,使部署的传感器和无人机能够进行高速计算。”