现代人工智能 (AI) 以从数据中学习为中心——数据越多,它学得越好。
这就是为什么到目前为止,人工智能的研究和应用主要集中在通过使用高效的计算资源在更多数据上训练更大的人工智能模型。但是,虽然在这一领域取得了重大进展,但许多应用领域——例如医疗保健和制造业——可用的数据有限,这限制了它在这些领域的适用性。
基础模型可能是解决这个问题的方法。术语“基础模型”是指 AI 模型背后的通用目的。虽然传统的人工智能模型必须针对每个单独的用例在大量数据集上进行训练,但基础模型可以适应广泛的下游任务——从而限制了启动人工智能企业所需的跑腿工作量并提高了效率。
基础模型基于迁移学习的标准思想和使用自监督学习训练深度学习模型的最新进展。他们还展示了惊人的紧急能力,并在各种用例上显着提高了性能——这使它们成为企业的一个有吸引力的前景。
但存在的潜在基础模型甚至比这更大:它们代表了 AI 中不断增长的范式转变。到目前为止,人工智能研究人员和开发人员不得不为每个用例从头开始训练模型,这需要他们收集大量特定于任务的数据集。相反,基础模型提供基于通用目的的模型,可以使用您已有的数据将其应用于特定用例。
通过这种方式,基础模型将使组织能够更轻松地在 AI 的基础上构建或大量集成到他们的运营中。
基础模型如何工作?
从技术角度来看,基础模型是使用自我监督学习训练的深度神经网络。尽管这些技术已经存在多年,但真正具有开创性的是它们创建模型的规模。
最近的基础模型包含数千亿到数万亿个参数,并在数百 GB 的数据上进行训练。现有的基础模型大多使用最先进的迁移学习。
虽然迁移学习不是基础模型不可或缺的一部分,但它具有一些特性,使其成为基础模型的理想核心:
它们很容易并行化。迁移学习在训练和推理阶段都可以很容易地并行化。此属性对于自然语言处理 (NLP) 尤为重要,其中以前最先进的模型——包括递归神经网络 (RNN) 和长短期记忆 (LSTM)——按顺序处理数据,因此不能并行化。
他们的隐性偏见较少。与其他当代模型(例如卷积神经网络 (CNN) 和 RNN)相比,迁移学习具有最小的隐式偏差。隐式偏差是指通过考虑输入数据的某些特征做出的设计选择——例如,CNN 中的特征局部性和 RNN 中特征的顺序依赖性。因此,由于更少的隐性偏差,迁移学习是一种比其他模型更通用的架构,这使得它更适合构建基础模型。然而,这也意味着迁移学习需要更多的训练数据,因为众所周知的隐性偏差和数据之间的权衡。 (另请阅读:为什么多样性对于训练 AI 的高质量数据至关重要。)
基础模型通常使用自我监督学习进行训练,与监督学习不同,这种学习需要较少的人为干预。相反,自我监督学习允许模型“自学”如何通过使用训练数据中自然可用的监督信号来学习。
这些监督信号的一些例子是:
屏蔽句子中的单词并训练模型以恢复丢失的单词,就像 BERT 所做的那样。
预测句子中的下一个字符或单词,就像 GPT-3 所做的那样。
判断图像与其转换后版本之间的对应关系,就像 SimCLR 所做的那样。
像 CLIP 一样判断图像及其解释之间的相似性。
自监督学习对于训练基础模型很有用,原因至少有两个:
它比监督学习具有更好的可扩展性。这是因为获取更多未标记数据比标记数据更方便。
它学习更具表现力的特征。这是因为它使用比监督数据更丰富的数据空间,监督数据的标签空间是众所周知的局限性。
高容量和计算效率高的模型架构、高度可扩展的训练目标和强大的硬件相结合,使我们能够将基础模型扩展到非凡的水平。
基础模型的兴起
基础模型的兴起可以从出现和同质化的角度来理解。涌现是指系统的行为,它是间接产生的。同质化意味着整合方法来为广泛的应用程序构建机器学习系统。
为了更好地了解基础模型在更广泛的 AI 对话中的位置,让我们探索 AI 在过去 30 年中的兴起:(另请阅读 AI 简史。)
1.机器学习
大多数当代人工智能的发展都是由机器学习 (ML) 驱动的,机器学习使用历史数据来学习预测模型以进行未来预测。机器学习在 AI 中的兴起始于 1990 年代,是对之前 AI 系统构建方式的范式转变。
ML 算法可以推断如何从其训练的数据中执行给定的操作。这是向同质化迈出的重要一步,因为可以使用单一的通用 ML 算法实现广泛的 AI 用例。
然而,ML 的一个重要任务是特征工程,这需要领域专家将原始数据转化为更高层次的特征。
2.深度学习
神经网络在 2010 年左右以深度学习 (DL) 的形式出现了一个新的开端。
与普通神经网络不同,DL 模型由深度神经网络(即具有更多计算层的神经网络)、计算效率高的硬件和更大的数据集提供支持。 DL 的一个主要优点是采用原始输入(即像素)并在训练过程中生成特征层次结构。因此,在 DL 中,特征也从学习行为中出现。
这一发展使 DL 在标准基准测试中表现出非凡的性能。 DL 的兴起也向同质化迈进了一步,因为相同的 DL 算法可以用于许多 AI 用例,而无需特定领域的特征工程。
然而,深度学习模型需要大量特定领域的数据进行训练。
3.基础模型
自然语言处理领域的基础模型时代始于 2018 年。从技术上讲,基础模型由迁移学习和规模提供支持。
迁移学习的工作原理是利用人工智能模型必须获得的知识来执行它已经可以完成的任务,并扩展它以教模型执行新任务——本质上是将模型的知识“迁移”到新的用例中。
在深度学习中,迁移学习的主要方法是使用自监督学习预训练模型,然后根据特定用例对其进行微调。
虽然迁移学习使基础模型可实现,但规模化使它们变得有效。规模取决于三个关键因素:
开发利用硬件并行性的计算高效模型架构(例如,迁移学习)。
以更好的吞吐量和内存增强计算机硬件(例如,GPU)
访问更大的数据集。
与深度学习不同,模型必须有大量特定于任务的数据集才能学习特定于用例的特征,而基础模型旨在创建可用于多个用例的“通用”特征。
通过这种方式,基础模型呈现出前所未有的同质化水平的可能性。一个典型的例子:几乎所有最先进的 NLP 模型都是从少数基础模型之一(例如 BERT、GPT-3、T5、CLIP、DALL-E 2、Codex 和 OPT)中采用的。
结论
基础模型代表了人工智能系统在世界上构建和部署方式的范式转变的开始。 他们已经在自然语言处理领域打下了基础,并正在计算机视觉、语音识别和强化学习等其他领域进行探索。
然而,鉴于它们的潜力,我们可以期待基础模型超越研究领域,并彻底改变人工智能在商业中的应用方式。 企业内的自动化流程将不再需要数据科学团队为他们想要自动化的每项任务从头开始重新训练模型; 相反,他们可以根据基线参数训练模型并针对每个用例进行微调。