尽管 ChatGPT 和其他大型语言模型取得了巨大成功,但支撑这些系统的人工神经网络 (ANN) 可能走在了错误的轨道上。
首先,人工神经网络“非常耗电”,马里兰大学计算机科学家 Cornelia Fermüller 说道。 “另一个问题是[他们]缺乏透明度。” 这些系统非常复杂,以至于没有人真正理解它们在做什么,或者为什么它们运行得这么好。 反过来,这使得他们几乎不可能通过类比来推理,而这正是人类所做的——使用符号来表示物体、想法以及它们之间的关系。
这些缺点可能源于人工神经网络及其构建模块的当前结构:单个人工神经元。 每个神经元接收输入、执行计算并产生输出。 现代人工神经网络是这些计算单元的复杂网络,经过训练可以执行特定任务。
然而人工神经网络的局限性早已显而易见。 例如,考虑一个能够区分圆形和正方形的人工神经网络。 一种方法是在其输出层中有两个神经元,一个表示圆形,另一个表示正方形。 如果您希望您的人工神经网络还能够识别形状的颜色(例如蓝色或红色),您将需要四个输出神经元:蓝色圆圈、蓝色正方形、红色圆圈和红色正方形各一个。 更多的特征意味着更多的神经元。
这不可能是我们的大脑感知自然世界及其各种变化的方式。 “你必须提出,你有一个适合所有组合的神经元,”加州大学伯克利分校的神经科学家布鲁诺·奥尔斯豪森说。 “所以,你的大脑中会有一个紫色的大众探测器。”
相反,奥尔斯豪森和其他人认为大脑中的信息是由大量神经元的活动表示的。 因此,对紫色大众汽车的感知并不是被编码为单个神经元的行为,而是被编码为数千个神经元的行为。 同一组神经元,以不同的方式放电,可能代表一个完全不同的概念(也许是一辆粉红色的凯迪拉克)。
这是一种完全不同的计算方法(称为超维计算)的起点。 关键是每条信息,例如汽车的概念或其品牌、型号或颜色,或所有这些信息,都被表示为单个实体:超维向量。
向量只是一个有序的数字数组。 例如,3D 矢量包含三个数字:3D 空间中点的 x、y 和 z 坐标。 超维向量或超向量可以是 10,000 个数字的数组,例如表示 10,000 维空间中的一个点。 这些数学对象和操纵它们的代数足够灵活和强大,足以使现代计算超越其当前的一些限制,并培育一种新的人工智能方法。
“这几乎是我整个职业生涯中最令我兴奋的事情,”奥尔斯豪森说。 对他和其他许多人来说,超维计算预示着一个新的世界,在这个世界中,计算高效、稳健,机器做出的决策完全透明。
进入高维空间
为了了解超向量如何使计算成为可能,让我们回到带有红色圆圈和蓝色方块的图像。 首先,我们需要向量来表示变量形状和颜色。 然后我们还需要可以分配给变量的值的向量:CIRCLE、SQUARE、BLUE 和 RED。
向量必须是不同的。 这种独特性可以通过称为正交性的属性来量化,正交性意味着成直角。 在 3D 空间中,存在三个彼此正交的向量:一个在 x 方向,另一个在 y 方向,第三个在 z 方向。 在一万维空间中,有一万个这样的相互正交的向量。
但如果我们允许向量几乎正交,那么高维空间中此类不同向量的数量就会激增。 在一万维空间中,有数百万个近乎正交的向量。
现在让我们创建不同的向量来表示形状、颜色、圆形、方形、蓝色和红色。 由于高维空间中有很多可能的近正交向量,因此您可以分配六个随机向量来表示这六个项目; 它们几乎可以保证几乎是正交的。 加州大学伯克利分校红木理论神经科学中心的研究员 Pentti Kanerva 在 2009 年一篇颇具影响力的论文中写道:“易于制作近乎正交的向量是使用超维表示的一个主要原因。”
这篇论文以 Kanerva 和 Tony Plate 在 20 世纪 90 年代中期所做的工作为基础,当时他们是多伦多大学 Geoff Hinton 的博士生。 两人独立开发了用于操纵超向量的代数,并暗示了它在高维计算中的有用性。
鉴于形状和颜色的超向量,Kanerva 和 Plate 开发的系统向我们展示了如何使用某些数学运算来操纵它们。 这些动作对应于象征性地操纵概念的方式。
第一个运算是乘法。 这是一种结合想法的方式。 例如,将向量 SHAPE 与向量 CIRCLE 相乘,将两者绑定为“SHAPE is CIRCLE”这一想法的表示。 这个新的“束缚”向量几乎与 SHAPE 和 CIRCLE 正交。 而且各个组件是可恢复的——如果您想从绑定向量中提取信息,这是一个重要的功能。 给定代表您的大众汽车的绑定向量,您可以解除绑定并检索该向量的颜色:紫色。
第二个操作是加法,创建一个新向量来表示所谓的概念叠加。 例如,您可以采用两个绑定向量“SHAPE is CIRCLE”和“COLOR is RED”,并将它们加在一起以创建一个表示红色圆形的向量。 同样,叠加的向量可以分解为其组成部分。
第三个操作是排列; 它涉及重新排列向量的各个元素。 例如,如果您有一个三维向量,其值标记为 x、y 和 z,则排列可能会将 x 的值移动到 y,将 y 移动到 z,将 z 移动到 x。 “排列可以让你构建结构,”卡内瓦说。 “它可以让你处理连续发生的事情。” 考虑由超向量 A 和 B 表示的两个事件。我们可以将它们叠加到一个向量中,但这会破坏有关事件顺序的信息。 将加法与排列相结合可以保留顺序; 通过反转操作可以按顺序检索事件。
事实证明,这三个操作一起足以创建允许符号推理的超向量形式代数。 但包括奥尔斯豪森在内的许多研究人员迟迟没有意识到超维计算的潜力。 “它只是没有被接受,”他说。
驾驭力量
2015 年,奥尔斯豪森的一名学生埃里克·韦斯 (Eric Weiss) 展示了超维计算独特能力的一方面。 Weiss 弄清楚了如何将复杂图像表示为单个超维向量,该向量包含图像中所有对象的信息,包括它们的属性,例如颜色、位置和大小。
“我几乎从椅子上摔下来,”奥尔斯豪森说。 “突然间,灯泡亮了。”
很快,更多的团队开始开发超维算法来复制深度神经网络大约二十年前就开始处理的简单任务,例如图像分类。
考虑一个由手写数字图像组成的带注释的数据集。 算法使用某种预定方案分析每个图像的特征。 然后它为每个图像创建一个超向量。 接下来,该算法将所有零图像的超向量相加,以创建零概念的超向量。 然后,它对所有数字执行相同的操作,创建 10 个“类”超向量,每个数字一个。
现在给算法一个未标记的图像。 它为这个新图像创建一个超向量,然后将该超向量与存储的类超向量进行比较。 这种比较确定了新图像最相似的数字。
但这仅仅是开始。 超维计算的优势在于能够组合和分解超向量以进行推理。 最新的演示发生在 3 月份,当时苏黎世 IBM 研究院的 Abbas Rahimi 和同事使用超维计算和神经网络来解决抽象视觉推理中的一个经典问题——这对典型的人工神经网络,甚至对一些人类来说都是一个重大挑战。 该问题被称为 Raven 渐进矩阵,以 3×3 网格的形式呈现几何对象的图像。 网格中的一个位置是空白的。 受试者必须从一组候选图像中选择最适合空白的图像。
“我们说,‘这真的是……视觉抽象推理的杀手级例子,让我们开始吧,’”拉希米说。
为了使用超维计算解决该问题,团队首先创建了一个超向量字典来表示每个图像中的对象; 字典中的每个超向量表示一个对象及其属性的某种组合。 然后,该团队训练了一个神经网络来检查图像并生成一个双极超向量(元素可以是 +1 或 -1),这尽可能接近字典中超向量的某些叠加; 因此,生成的超向量包含有关图像中所有对象及其属性的信息。 “你引导神经网络进入一个有意义的概念空间,”拉希米说。
一旦网络为每个上下文图像和每个空白槽候选生成了超向量,另一种算法就会分析超向量,为每个图像中的对象数量、大小和其他特征创建概率分布。 这些概率分布代表了上下文和候选图像的可能特征,可以转换为超向量,从而允许使用代数来预测最有可能的候选图像来填充空位。
他们的方法对一组问题的准确率接近 88%,而纯神经网络解决方案的准确率不到 61%。 该团队还表明,对于 3×3 网格,他们的系统比使用符号逻辑规则进行推理的传统方法快了近 250 倍,因为该方法必须搜索庞大的规则手册才能确定正确的下一步。
一个充满希望的开始
超维计算不仅使我们能够象征性地解决问题,而且还解决了传统计算的一些棘手问题。 如果由随机位翻转(0 变为 1,反之亦然)等引起的错误无法通过内置纠错机制来纠正,那么当今计算机的性能会迅速下降。 此外,维拉诺瓦大学计算机科学家 Xun Jiao 表示,这些纠错机制可能会使性能下降高达 25%。
超维计算可以更好地容忍错误,因为即使超向量遭受大量随机位翻转,它仍然接近原始向量。 这意味着使用这些向量的任何推理在面对错误时都不会受到有意义的影响。 Jiao 的团队已经证明,这些系统对硬件故障的容忍度至少是传统 ANN 的 10 倍,而传统 ANN 本身的弹性比传统计算架构高出几个数量级。 “我们可以利用所有的弹性来设计一些高效的硬件,”焦说。
超维计算的另一个优点是透明度:代数清楚地告诉您系统为什么选择它所做的答案。 对于传统的神经网络来说情况并非如此。 Olshausen、Rahimi 和其他人正在开发混合系统,其中神经网络将物理世界中的事物映射到超向量,然后由超维代数接管。 “像类比推理这样的事情就落在你的腿上了,”奥尔斯豪森说。 “这是我们对任何人工智能系统的期望。 我们应该能够像理解飞机或电视机一样理解它。”
与传统计算相比,所有这些优势表明超维计算非常适合新一代极其坚固、低功耗的硬件。 它还与“内存计算系统”兼容,后者在存储数据的同一硬件上执行计算(与现有的冯诺依曼计算机不同,后者在内存和中央处理单元之间低效地传输数据)。 其中一些新设备可以是模拟的,在非常低的电压下运行,使其节能,但也容易产生随机噪声。 奥尔斯豪森说,对于冯·诺依曼计算来说,这种随机性是“你无法逾越的墙”。 但通过超维计算,“你可以直接突破它。”
尽管有这些优势,超维计算仍处于起步阶段。 “这里有真正的潜力,”费米勒说。 但她指出,它仍然需要针对现实世界的问题进行测试,并在更大的规模上进行测试,更接近现代神经网络的规模。
“对于大规模问题,这需要非常高效的硬件,”拉希米说。 “例如,如何有效地搜索超过 10 亿个项目?”
卡内尔瓦说,所有这一切都应该随着时间的推移而实现。 “高维空间还隐藏着其他秘密,”他说。 “我认为这是矢量计算的开始。”