以数据为中心与以模型为中心的 AI:改进算法的关键源代码

2022-11-29 0 1,435

以数据为中心与以模型为中心的 AI:改进算法的关键源代码

如今,无论我们要构建什么人工智能 (AI) 项目,我们都需要两个主要成分:
一个模型。
数据。
在开发有效模型方面已经取得了很多进展,这使得 AI 取得了许多突破。然而,除了使数据集更大之外,在数据领域还没有进行类似的工作。

虽然传统的以模型为中心的 AI 的进展正在缩小差异,但 Andrew Ng 和许多其他领先的科学家和学者正在争论采用以数据为中心的 AI,它处理新范式的开发以系统地提高数据质量。

以数据为中心与以模型为中心的 AI
以数据为中心的 AI 不同于以模型为中心的 AI,因为后者的主要重点是开发和改进模型和算法,以在给定任务上实现更好的性能。换言之,以模型为中心的 AI 将数据视为固定工件并专注于改进 AI 模型,而以数据为中心的 AI 将模型视为静态工件并专注于提高数据质量。 (另请阅读:什么是数据剖析以及为什么它在业务分析中很重要?)

数据在人工智能中至关重要;采用一种获取高质量数据的方法至关重要——因为有用的数据不仅容易出错且数量有限,而且获取成本非常高。

以数据为中心的 AI 的关键思想是以我们在建造房屋时处理高质量材料的方式处理数据:我们花费相对更多的时间来标记、扩充、管理和整理数据。

为什么我们需要以数据为中心的人工智能
传统的以模型为中心的人工智能的“口头禅”是用更大的数据集优化高度参数化的模型,以实现性能提升。

虽然这句格言适用于媒体和广告等许多行业,但它也面临着医疗保健和制造业等行业面临的许多挑战。这些包括:

缺乏训练数据实例。这通常会导致优化不佳和令人失望的结果。
一笔巨款。现有的以模型为中心的人工智能需要庞大的数据集和昂贵的计算机资源来提供性能提升。相比之下,以数据为中心的人工智能关注数据质量而不是数量,并且不需要昂贵的计算资源。
不太可靠和公平的结果。通过以数据为中心的 AI 方法优先考虑数据质量,我们更有可能通过仔细分析消除数据偏差。
复杂的模型集合。以模型为中心的人工智能方法需要专门的模型来处理不同的任务,这导致组织积累了许多数据集和许多模型。这也导致与 AI 相关的成本增加:可能很难提供足够的数据来处理每个小问题(例如在几种不同的制造产品中进行故障检测)。
以数据为中心的人工智能方法可以帮助缓解这些挑战,进而帮助组织从数据中获得更多收益。

如何实现以数据为中心的 AI
以数据为中心的人工智能的本质是在部署人工智能基础设施时将数据视为关键资产。

与同样处理将数据归档到存储库中的以模型为中心的 AI 不同,这种范式强调发展对数据的共同理解以维护统一的描述。

那么我们该怎么做呢?我们应该考虑哪些重要方面来实施这种方法?事实证明,要采用以数据为中心的人工智能,我们需要遵循一些指导方针。他们是:

1.正确的数据标签
顾名思义,数据标签处理为数据分配标签——例如为医学图像分配疾病标签。

数据标签提供有关数据集的重要信息,AI 算法使用这些信息进行学习。因此,信息必须正确且一致。此外,已经表明,较少的标记良好的数据实例(例如,图像)可以产生比带有错误标签的更多数据更好的结果。 (另请阅读:为什么多样性对于训练 AI 的高质量数据至关重要。)

以数据为中心的人工智能高度强调数据标签的质量,这需要处理标签中的不一致和标签手册的工作。找到这些不一致的最好方法是使用多个数据标签器。在发现标签不一致或含糊不清后,标签商应决定如何更正不一致的标签,并将他们的决定记录在标签手册中。在标签手册中提供正确和错误数据标签的示例也很有帮助。

下面显示了 Andrew Ng 描述的鬣蜥检测中标签不一致的一些示例。请注意标记器在标记鬣蜥时是如何不一致的:

2. 去除噪声数据实例
您可以通过丢弃嘈杂的数据实例来消除它们。这扩展了模型泛化到新数据的能力。

3. 增强数据
此任务涉及通过插值或外推等方式从现有实例生成更多数据实例。

由于以数据为中心的 AI 关注数据质量而不是数量,但某些 AI 模型需要大量数据才能良好运行,因此数据增强可以帮助您找到中间立场。

然而,重要的是要注意,如果该数据包含嘈杂的实例,那么生成更多数据将无济于事。

4.特征工程
特征工程处理使用先验知识或算法根据最相关的变量(即特征)来表示原始数据。

这个想法是使用领域知识作为特征来提高预测模型的质量,而不是向模型提供原始数据。特征工程对于添加原始数据中可能不存在但可以显着提高性能并减轻收集大型数据集的需求的额外特征至关重要。 (另请阅读:为什么特征选择在机器学习中如此重要?)

五、错误分析
在给定数据集上训练模型后,错误分析可以帮助您找到要改进的数据集子集。通过重复执行此过程,您可以逐渐提高数据质量,从而提高模型的性能。

6.领域知识
在以模型为中心的 AI 中,领域专家通常不参与,因为数据被认为是给定的工件。

然而,领域知识在以数据为中心的 AI 中起着至关重要的作用,因为领域专家通常可以检测到数据中的细微不一致,这可能会带来更好的结果。

以数据为中心的人工智能的未来
尽管大多数以数据为中心的 AI 想法已经作为 AI 工程师的传统智慧存在,但以数据为中心的 AI 旨在构建一种系统的方法和工具来促进这一过程。以数据为中心的 AI 的典型生命周期如下图所示:
如图所示,以数据为中心的 AI 是一个迭代过程——训练分析和部署结果可能会导致返回到数据收集和模型训练阶段,以观察和纠正测试数据中的问题。

为了帮助 AI 工程师在他们的项目中采用以数据为中心的 AI,AI 社区开发了各种工具。这些包括:

着陆镜头。 LandingLens 是 Andrew Ng 创立的 Landing AI 开发的一款产品,可帮助 AI 工程师为生产环境中的各种任务开发和部署一致的迭代检查系统。该工具由数据、模型和部署模块组成,用于管理数据、加速故障排除和扩展部署。
清洁实验室。这个以数据为中心的 AI 包有助于清理标签、执行错误分析和学习数据集中的标签错误。
呼吸管。 Snorkel 是一个以数据为中心的平台,有助于以编程方式标记和准备训练数据,以加速构建和部署机器学习模型的过程。
自动增强。这种强化学习算法由 Google Brain 开发,有助于增加现有训练数据集中数据的数量和多样性。它也可以作为 Python 包使用。
相册。这是另一个用于快速灵活的图像增强的 python 库。
全息清洁。 HoloClean 旨在使领域专家能够以声明的方式交流他们的领域知识。这有助于从嘈杂、不完整和不正确的数据中生成准确的预测、分析和见解。
结论
以数据为中心的 AI 优先考虑数据质量而不是数量。与寻求通过扩展数据集来提高性能的以模型为中心的 AI 相比,以数据为中心的方法可以帮助缓解部署 AI 基础设施时可能出现的许多挑战。

申明:本文由第三方发布,内容仅代表作者观点,与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不代表本网对其真实性负责。

七爪网 行业资讯 以数据为中心与以模型为中心的 AI:改进算法的关键源代码 https://www.7claw.com/48864.html

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务