4 个常见的机器学习陷阱以及如何避免它们源代码

2022-11-29 0 631

4 个常见的机器学习陷阱以及如何避免它们源代码

机器学习是当今技术领域最热门的话题之一——这是有充分理由的。

它具有将知识工作者面临的一些最繁琐的任务自动化或半自动化的巨大潜力——领先的科技公司已经开始意识到其中的大部分潜力。

例如,机器学习可以帮助将以下任务的人工劳动减少 50% 或更多:
合同审查。
人力资源服务管理。
转录会议记录。
财务预测。
随着机器学习应用变得越来越广泛,我们正处于释放这一价值的悬崖边上。 Algorithmia 的一项研究发现,到 2021 年,76% 的企业将人工智能 (AI) 和机器学习 (ML) 优先于其他 IT 计划。

然而,大多数机器学习计划都失败了。

虽然 ML 飞行员从未起飞的原因有很多,但最紧迫的问题可以追溯到四个主要陷阱:

缺乏业务一致性。
糟糕的机器学习训练实践。
数据质量问题。
部署复杂性。
让我们探讨其中的每一个,并为数据团队和组织提出一些解决方案来避免它们。

虽然 ML 飞行员从未起飞的原因有很多,但最紧迫的问题可以追溯到四个主要陷阱:

缺乏业务一致性。
糟糕的机器学习训练实践。
数据质量问题。
部署复杂性。
让我们探讨其中的每一个,并为数据团队和组织提出一些解决方案来避免它们。

1. 缺乏业务一致性
机器学习的原罪在于这些项目中的大多数是如何诞生的。

很多时候,一群数据科学家在构思机器学习项目时会想:“这个数据很有趣;如果……不是很酷吗?”

正是这种思路将 ML 项目变成了科学实验。

此类项目中的模型仍有可能产生一些有价值的东西——但如果项目不能解决紧迫和痛苦的需求,它就不会从业务利益相关者那里获得所需的时间或关注。或者更糟的是,它可能会变得更接近区块链:一种寻找问题的很酷的技术。

机器学习项目应该从查看最紧迫的业务优先事项开始,然后评估解决这些问题所需的资源——而不是从手头的干净数据开始,然后试图找到他们可以解决的问题。

在启动机器学习项目之前要问的好问题包括:

这个问题紧急吗?据WHO称?
为什么机器学习是这个问题的正确解决方案?
我们将如何定义成功?
2. 糟糕的机器学习训练
假设您的项目有一个真正困难且有价值的业务问题。下一步是收集足够的干净数据来训练模型。

这就是数据科学家的悖论:为了消除他人的辛劳,他们必须沉迷其中。

据 Anaconda 称,数据科学家将大约 45% 的时间花在数据准备任务上,包括加载和清理数据。

很有可能,在所有这些工作之后,可能只是没有足够的合适或有代表性的训练数据。而且,与任何其他手动任务一样,会引入人为错误的风险。 (另请阅读:自动化:数据科学和机器学习的未来?)

微调您的 ML 模型也可能具有挑战性。它可以过度拟合,学习太多,也可以欠拟合,学习太少。

你问机器学习模型怎么会学得太好?

有一个著名的模型示例,该模型经过训练可以区分哈士奇和狼。它在训练期间非常准确,但在生产中开始失败。问题?所有狼的照片的背景都是雪,而哈士奇则没有。这是一个雪检测模型,而不是狼检测模型。

不幸的是,机器学习培训可能是您不想获得 100% 分数的一项测试。

3. 数据质量问题
无论是在训练中还是在部署中,都不可能拥有包含不良数据的有效机器学习模型。正如他们所说,垃圾进,垃圾出。

挑战在于机器学习模型需要大量数据。他们总是想要更多的数据——只要它是可靠的。

然而,不良数据可以通过几乎无限多种方式引入良好的数据管道。有时它可能是一个嘈杂的异常,很快就会发现错误;其他时候,这可能是数据漂移的渐进情况,随着时间的推移会降低模型的准确性。无论哪种方式,这都很糟糕。

那是因为你建立这个模型是为了自动化或通知一个痛苦的业务问题——所以当准确性下降时,信任也会下降,后果很严重。例如,我的一位同事与一家金融公司交谈,该公司正在使用机器学习模型购买符合特定标准的债券。不良数据使它脱机,几周后才被信任重新投入生产。

支持机器学习模型的数据基础设施需要不断地进行测试和观察——最好是以一种可缩放的、自动化的方式。

4.部署复杂性
事实证明,在生产中部署和维护机器学习需要大量资源。谁知道?

好吧,Gartner 做到了。它预计,到 2025 年,人工智能将成为推动基础设施决策的首要类别,因为人工智能市场的成熟导致计算需求增长十倍。

这需要业务利益相关者的大量支持,这就是业务一致性如此重要的原因。例如,前 Uber 数据产品经理 Atul Gupte 领导了一个项目,以改进该组织的数据科学工作台,数据科学家使用该工作台来简化协作。

数据科学家目前正在自动化验证和验证申请加入优步平台时所需的工人文件的过程。这是机器学习和深度学习的一个伟大项目,但问题是数据科学家经常会达到可用计算的极限。

Gupte 研究了多种解决方案,并将虚拟 GPU(当时是一项新兴技术)确定为可能的解决方案。虽然价格很高,但 Gupte 以领导力证明了支出的合理性。该项目不仅为公司节省了数百万美元,而且支持了一个关键的竞争优势。

另一个例子是 Netflix 如何从未将其屡获殊荣的推荐算法投入生产,而是选择采用更易于集成的更简单的解决方案。

如何避免这些陷阱
不要让这些挑战阻止您启动机器学习计划。

通过以下方式减轻这些风险因素:

尽早获得利益相关者的支持并经常保持一致。
以 DevOps 的方式进行迭代。
确保您拥有正确的培训数据并在生产前后监控质量。
牢记生产资源限制。
正如汤姆汉克斯在“他们自己的联盟​​”中所说的那样,“如果不难,每个人都会这样做。正是艰苦使它变得伟大。”

申明:本文由第三方发布,内容仅代表作者观点,与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不代表本网对其真实性负责。

七爪网 行业资讯 4 个常见的机器学习陷阱以及如何避免它们源代码 https://www.7claw.com/48852.html

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务