Meta 的 AI 专家 LeCun 探索深度学习的能源前沿-七爪网

Meta 的 AI 专家 LeCun 探索深度学习的能源前沿

三十年前，Yann LeCun 在贝尔实验室工作时，正式确定了一种称为卷积神经网络的机器学习方法，该方法被证明在解决图像识别等任务方面非常高效。众所周知，CNN 是 AI 深度学习的主力军，LeCun 在 2019 年为 LeCun 赢得了享有盛誉的 ACM 图灵奖，相当于计算领域的诺贝尔奖。

LeCun 是纽约大学的教授，也是 Meta 的首席科学家，他在上周接受 ZDNet 采访时表示，这些天是他 30 年来最兴奋的一天。原因是：新发现正在使一长串的调查重新焕发活力，而这些调查可能会像 CNN 一样在 AI 中产生成效。

LeCun 正在探索的新领域被称为基于能量的模型。概率函数是“描述一个随机变量或一组随机变量呈现其每种可能状态的可能性”（参见深度学习，作者 Ian Goodfellow，Yoshua Bengio 和 Aaron Courville，2019 年），基于能量模型简化了两个变量之间的一致性。借用统计物理学中的语言，基于能量的模型假设两个变量之间的能量在它们不相容时上升，并且在它们越一致时下降。这可以消除“归一化”概率分布时出现的复杂性。

这是机器学习中的一个古老想法，至少可以追溯到 1980 年代，但从那时起，在使基于能量的模型更可行方面取得了进展。近年来，随着 LeCun 对此事的想法不断发展，他进行了多次演讲，其中包括 ZDNet 报道的 2019 年在普林斯顿高等研究院的一次演讲。

最近，LeCun 在两篇论文中描述了基于能量的模型研究的现状。 “Barlow Twins”，去年夏天与 Facebook AI Research 和 VICReg 的同事一起发表，“该文章于 1 月与 FAIR 和法国的 Inria 在巴黎高等师范学院发表。

正如 LeCun 在谈话中承认的那样，其中一些与量子电动力学有有趣的相似之处，尽管这不是他的重点。他的重点是可以为人工智能系统推进哪些类型的预测。

使用 LeCun 开发的现代基于能量的模型版本，他称之为“联合嵌入模型”，LeCun 认为深度学习系统将具有“巨大优势”，即“预测发生在抽象表示空间中 ”

另外：使超级计算机可用的 Jack Dongarra 获得了 ACM 图灵奖

LeCun 认为，这为“预测世界的抽象表征”开辟了道路。具有抽象预测能力的深度学习系统可能是一般意义上的规划路径，当系统处于推理模式时，这种抽象预测机器的“堆栈”可以分层以产生规划场景。

这可能是实现 LeCun 认为可以成为统一“世界模型”的重要工具，该模型将推进他所说的自主 AI，能够通过对跨场景以及跨图像、语音和其他输入模式的依赖关系进行建模来进行规划关于世界。

以下是我们通过 Zoom 进行的对话的编辑版本。

ZDNet：首先，为了帮助我们定位，您最近谈到了机器学习中的自我监督学习，而且术语无监督学习也在那里。无监督学习与自监督学习有什么关系？

Yann LeCun：嗯，我认为自我监督学习是一种特殊的无监督学习方式。无监督学习是一个有点含糊的术语，在机器学习的背景下没有很好的定义。当你提到这个的时候，人们会想到，你知道，聚类和 PCA [主成分分析]，那种类型的东西，以及各种可视化方法。因此，自监督学习基本上是一种尝试，本质上是将监督学习方法用于无监督学习：你使用监督学习方法，但你训练的神经网络没有人工提供的标签。所以拿一段视频，向机器展示一段视频，并要求它预测视频中接下来会发生什么，例如。或者给它看两段视频，然后问它，这个是那个的续集吗？不是要求它预测，而是要求它告诉你这两个场景是否兼容。或者向它展示同一物体的两个不同视图，然后问它，这两个东西是同一个物体吗？所以，这种事情。因此，从本质上讲，您提供给系统的所有数据都是输入，因此没有人为监督。

ZDNet：近年来，您发表过多次演讲，包括 2019 年在新泽西州普林斯顿的高等研究院 (IAS)，以及最近 2 月由百度主办的关于所谓能源方法的演讲—— 基于深度学习的方法。那些基于能量的模型是否属于无监督学习的自我监督部分？

YL：是的。在基于能量的模型的背景下，一切都可以假设。我给你一个 X 和一个 Y； X 是观察值，Y 是模型应该捕获的关于 X 的依赖关系。例如，X 是一段视频，Y 是另一段，我向系统显示 X 和 Y，它应该告诉我 Y 是否是 X 的延续。或者两个图像，它们是彼此的扭曲版本，还是完全不同的对象？那么，能量衡量的是这种相容性或不相容性，对吗？如果这两部分兼容，那么它会是零，然后，在一些大的数字中，它们不兼容。

您有两种策略来训练基于能量的模型。第一个是，你向它显示兼容的 X、Y 对，你还向它显示不兼容的 X、Y 对。两个不匹配的视频片段，两个不同对象的视图。因此，对于那些[不相容的配对]，你希望能量高，所以你以某种方式将能量推高。而对于那些不兼容的，你会降低能量。

这些是对比方法。至少在某些情况下，我发明它们是为了一种特殊类型的自我监督学习，称为“孪生网络”。我曾经是他们的粉丝，但现在不是了。我改变了主意。我认为那些方法注定要失败。我不认为它们没有用，但我认为它们还不够，因为它们不能很好地适应这些东西的维度。有那条线；所有幸福的夫妻都以同样的方式幸福，所有不幸的夫妻以不同的方式不幸福。 [托尔斯泰，安娜卡列尼娜，“幸福的家庭都是相似的；不幸的家庭各有各的不幸。”]

这是同一个故事。两个图像可以相同或兼容的方式只有几种；两个图像有很多不同的方式，空间是高维的。所以，基本上，你需要大量的对比能量样本来推动这些对比方法起作用。它们仍然很受欢迎，但在我看来它们真的很有限。所以我比较喜欢的是非对比法或者所谓的正则化法。

这些方法基于这样一种想法，即你将以这样一种方式构建能量函数，即你赋予低能量的空间体积是有限的。它可以用损失函数中的一个术语或能量函数中的一个术语来解释，该术语表示最小化可以以某种方式吸收低能量的空间体积。我们有很多这样的例子。其中之一是可追溯到 1990 年代的积分稀疏编码。这些天我真正兴奋的是那些应用于自我监督学习的非对比方法。

ZDNet：您在演讲中特别讨论了您所谓的“基于正则化潜在变量能量的模型”，即 RLVEB。你是说这就是前进的方向，2020 年代或 2030 年代的新卷积神经网络？

YL：好吧，让我这样说吧：自从卷积网络以来，我对机器学习中的某些东西没有那么兴奋，好吗？ [笑] 我不确定这是新的卷积，但这确实让我非常兴奋。当我在 IAS 演讲时，我想到的是这个正则化的潜在变量生成模型。它们是生成模型，因为如果你想将它应用到视频预测之类的东西，你给它一段视频，你要求它预测下一段视频。

现在，我最近几年也改变了对这个的看法。现在，我最喜欢的模型不是从 X 预测 Y 的生成模型。这是我所说的联合嵌入模型，它采用 X，通过编码器运行它，如果你愿意的话，神经网络；获取 Y，并通过一个不同的编码器运行它；然后在这个抽象表示空间中进行预测。这有一个巨大的优势。

首先，为什么我改变了主意？我改变了主意，因为我们以前不知道该怎么做。现在我们有一些方法可以做到这一点，而且确实有效。这些方法是最近两年出现的。我正在推动的，实际上有两个是我制作的；一个叫做 VIC-REG，另一个叫做 Barlow Twins。

ZDNet：那么您认为在未来五到十年内，沿着这条推理线您可能会看到什么进展？

YL：我认为现在我们至少有一种方法可以将我们带到可以学习在抽象空间中进行预测的系统。他们可以学习抽象预测，同时他们可以学习预测在那个抽象空间中随着时间或状态会发生什么。如果你想拥有一个自主的智能系统，那是必不可少的一部分，例如，它有一些世界模型，可以让你提前预测世界上会发生什么，因为世界在进化，或者作为它的行动。因此，根据对世界状态的估计和你正在采取的行动，它可以预测你采取行动后世界的状态。

而且该预测还取决于一些您无法观察到的潜在变量。比如说，当你开车的时候，前面有辆车；它可以刹车、加速、左转或右转。你没有办法提前知道。这就是潜在变量。因此，整体架构是这样的，你知道，你采用 X 和 Y，初始视频集，未来视频，将它们嵌入到某个神经网络中，你有这两个东西的两个抽象表示。在那个空间里，你正在做那些潜在变量之一，基于能量的预测模型。

关键是，该模型现在正在预测世界的抽象表示。它并没有预测世界的所有细节，其中许多细节可能无关紧要。所以，你在路上开着这辆车；您可能在路边的树叶上有一个非常复杂的部分。而且你绝对没有办法预测到这一点，或者你不想投入任何精力或资源来预测到这一点。所以这个编码器可能会在被询问之前从本质上消除该信息。

YL：我预见到我们可以使用这个原则——我称之为 JEPA 架构，联合嵌入预测架构，并且有一篇关于这个的博客文章，我正在准备一篇关于这个的长篇论文—— 我从中看到的是，我们现在有了一种工具来学习世界的预测模型，以自我监督的方式学习感知的表示，而无需为特定任务训练系统。因为系统学习 X 和 Y 的抽象表示，所以我们可以堆叠它们。因此，一旦我们学习了可以让我们做出短期预测的周围世界的抽象表示，我们就可以堆叠另一个层，它可能会学习更抽象的表示，使我们能够做出长期预测。

这对于让一个系统通过观察、通过观看视频来了解世界是如何运作的是必不可少的，对吧？所以，婴儿基本上是通过观察世界的变化来学习的，并学习直观的物理学和我们所知道的关于世界的一切。动物也会这样做。我们想让我们的机器来做这件事。到目前为止，我们还无法做到这一点。因此，在我看来，这是实现这一目标的途径，使用联合嵌入架构，并以分层方式检查它们。

它可能帮助我们的另一件事是能够推理的深度学习机器。所以，如果你愿意，争论的话题是深度学习到目前为止擅长的是感知，你知道，这里是输入，这是输出。如果你想让一个系统基本上推理、计划怎么办？在一些更复杂的模型中会发生一些这种情况，但实际上并没有那么多。

那么，您如何让机器进行规划？如果你有一个世界的预测模型，如果你有一个模型允许系统预测将要发生的事情作为其行为的结果，那么你可以让系统想象它的行动过程，想象结果，以及然后将其提供给某个内部函数，您知道，该函数表征任务是否已经完成，诸如此类。然后，通过优化，可能使用梯度下降，找出最小化该目标的一系列动作。我们不是在谈论学习；我们现在谈论推理，计划。事实上，我在这里描述的是一种经典的模型预测控制规划和最优控制方式。

最优控制的不同之处在于，我们使用学习过的世界模型而不是一种硬连线模型来做到这一点。该模型将包含可以处理世界不确定性的所有变量。这可以成为能够想象未来、规划一系列行动的自主智能系统的基础。

我想从这里飞到旧金山；我需要去机场、赶飞机等。要去机场，我需要走出我的大楼，沿着街道走，然后搭乘出租车。要离开我的大楼，我需要离开我的椅子，走向门口，打开门，去电梯或楼梯。为此，我需要弄清楚如何将其分解为逐毫秒的肌肉控制。这就是所谓的分层规划。我们希望系统能够做到这一点。目前，我们无法真正做到这一点。这些通用架构可以为我们提供这些东西。那是我的希望。

ZDNet：您描述基于能量的模型的方式听起来有点像量子电动力学的元素，例如狄拉克-费曼路径积分或波函数，其中它是可能性振幅分布的总和。也许这只是一种比喻联系，或者也许实际上存在对应关系？

YL：嗯，这不仅仅是一个比喻，而是部分不同。当您有一个潜在变量，并且该潜在变量可以采用一堆不同的值时，通常，您所做的就是循环遍历该潜在变量的所有可能值。这可能不切实际。因此，您可以从某个分布中抽取该潜在变量。然后你计算的是一组可能的结果。但是，实际上，您最终要计算的是一些成本函数，它给出了您对该潜在变量的可能值进行平均的期望值。实际上，这看起来非常像路径积分。路径积分，本质上是计算多条路径上的能量总和。至少以经典的方式。以量子方式，你不是在加总概率或分数；您正在添加复数，它们可以相互抵消。我们没有这样的东西，尽管我们一直在考虑这样的事情——至少，我一直在考虑这样的事情。但它没有在这种情况下使用。但是对潜在变量进行边缘化的想法与对路径或轨迹求和的想法非常相似；它非常相似。

ZDNet：您提出了两个相当引人注目的论断。一是深度学习的概率方法已经过时了。您已经承认您正在讨论的基于能量的模型与 1980 年代的方法有某种联系，例如 Hopfield Nets。想详细说明这两点吗？

YL：我们之所以需要放弃概率模型，是因为你可以对两个变量 X 和 Y 之间的依赖关系进行建模；如果 Y 是高维的，您将如何表示 Y 上的分布？我们不知道该怎么做，真的。我们只能写下一个非常简单的分布，一个高斯分布或混合高斯分布，诸如此类。如果你想要复杂的概率度量，我们不知道如何去做，或者我们知道如何做的唯一方法是通过能量函数。所以我们写一个能量函数，低能量对应高概率，高能量对应低概率，这是物理学家理解能量的方式，对吧？问题是我们从不，我们很少知道如何规范化。在统计学、机器学习、计算物理学等方面有很多论文，都是关于如何解决这个术语难以处理的问题。

我基本上提倡的是，忘记概率建模，只使用能量函数本身。甚至没有必要使能量采取可以归一化的形式。归根结底，你应该有一些损失函数，当你训练你的数据模型时，你应该最小化这些损失函数，使相容事物的能量函数低而不相容事物的能量函数高。就这么简单。

ZDNet：以及与 Hopfield Nets 等事物的联系？

YL 当然，Hopfield Nets 和 Boltzmann Machines 与此相关。 Hopfield Nets 是以非对比方式训练的基于能量的模型，但它们效率极低，这就是为什么没有人使用它们的原因。

玻尔兹曼机基本上是 Hopfield Nets 的对比版本，你有数据样本，你降低它们的能量，你生成其他样本，然后你提高它们的能量。这些在某种程度上稍微更令人满意，但它们也不是很好，因为它们是对比方法，而对比方法不能很好地扩展。由于这个原因，它们也没有被使用。

ZDNet：那么，正则化的、基于潜在可变能量的模型真的可以被认为是 Hopfield Net 2.0 吗？

YL：不，我不会那样说。

ZDNet：你提出了另一个相当引人注目的断言，即“只有一个世界模型”，意识是人脑中“世界模型的故意配置”。您将此称为可能是一个疯狂的假设。这是你的猜想，这个疯狂的假设，还是有证据？在这种情况下，什么可以算作证据？

YL：是的，是的。这是一个猜想，这是一个疯狂的想法。任何关于意识的事情，在某种程度上，都是猜想，是疯狂的想法，因为我们一开始并不知道意识是什么。我的观点是它有点像幻觉。但我在这里提出的观点，有点滑稽，是意识被认为是人类和某些动物因为非常聪明而拥有的这种能力。我要说的是，意识是我们大脑局限的结果，因为我们需要意识，因为我们的头脑中有这种单一的世界模型引擎，我们需要一些东西来控制它。这就是给我们意识幻觉的原因。但如果我们有一个无限大的大脑，我们就不需要意识了。

至少有一些证据表明，我们的头脑中或多或少有一种单一的模拟引擎。而这方面的证据是，我们在任何时候基本上只能尝试一项意识任务。我们专注于任务；我们有点想像我们计划的行动的后果。你一次只能做其中一个。你可以同时做多项任务，但它们本质上是我们训练自己不假思索地完成的潜意识任务。在我们练习驾驶足够长的时间以至于它成为一种潜意识的任务之后，我们可以在开车时与我们旁边的人交谈。但是在我们学会开车的头几个小时里，我们无法做到这一点；我们必须集中精力完成驾驶任务。我们必须使用我们的世界模型预测引擎来找出所有可能发生的可怕事情的场景。

ZDNet：如果像这样的东西是猜想，那么它目前对你的工作没有任何实际意义，是吗？

YL：不，是的，对于我提出的这个自主人工智能模型，它有一个单一的可配置世界模型模拟引擎，目的是规划和想象未来，填补你无法完全观察到的事物的空白。拥有一个可配置的单一模型在计算上具有优势。拥有您配置的单一引擎可能允许系统在任务之间共享该知识，您通过观察或基本逻辑之类的东西了解世界上所有事物的共同点。拥有您配置的大模型比为可能必须单独训练的不同任务拥有一个完全独立的模型要高效得多。但是我们已经看到了，对吧？它曾经是，在过去的 Facebook 时代——当它还被称为 Facebook 时，我们用它来分析图像，进行排名和过滤，我们有专门的神经网络，专门的卷积网络，基本上，用于不同的任务。现在我们有了一个可以做任何事情的巨大机器。我们曾经有六个 ConvNet；现在，我们只有一个。

所以，我们看到了这种融合。我们现在甚至拥有可以做所有事情的架构：他们做视觉，他们做文本，他们做语音，用一个单一的架构。他们必须针对这三个任务分别接受培训，但这项工作，data2vec，是一种自我监督的方法。

ZDNet：最有趣！感谢您的时间。