MLOps 市场是如何定义的,如果您想在您的组织中解决 MLOps,您应该寻找什么,有哪些选择?
这些都是与机器学习操作化高度相关的问题——不仅仅是因为 MLOps 达到了顶峰 (Gartner) 炒作。 一些人正试图解决全球及其他地区的 Gartner 中的问题。
Ori Cohen 和 Lior Gavish 就在其中。 他们的意见很重要,因为他们都是具有多年经验的机器学习从业者,他们的日常工作涉及 MLOps 的各个方面。
Cohen 拥有计算机科学、机器学习、人工智能、实时脑机接口 (BCI) 的博士学位。 他目前是 New Relic 的首席研究员,最近公开了他的宠物项目——MLOps 状态。
Lior Gavish 的背景也是计算机科学,拥有广泛的机器学习以及商业和创业经验。 他与他人共同创立了 Monte Carlo,这是一家活跃于数据可观察性和数据可靠性的供应商,目前他在该公司领导工程。
我们采访了 Cohen 和 Gavish,讨论了 MLOps 的现状。
什么是 MLOps,它是为谁准备的?
首先,MLOps 到底是什么? 正如我们最近指出的那样,在相邻的数据和机器学习/人工智能领域不乏术语。 就 MLOps 而言,Cohen 提到了一个流行的图表,它有许多变体,其中机器学习处于中心位置,其他一切都围绕它放置。
“MLOps 实际上可以指与那个机器学习小盒子周围的空间相关的一切。你可以从数据和工程开始。数据科学分析、DevOps 基础设施系统、实验管理……两三年前,很多公司都是 进行实验管理。现在它还意味着对数据和数据管道的监控和可观察性”,科恩说。
Gavish 对此表示赞同,他将自己对 MLOps 的定义提炼为“帮助您在您感兴趣的某些约束条件下交付机器学习的实践和工具”。 对他来说,这涉及构建和部署的速度、可靠性和 SLA、安全性和合规性。
DataOps 和 MLOps 处于其生命周期的早期,Gavish 继续补充道。 这就是为什么会出现一定程度的混乱,而 Cohen 的工作是在这个空间中导航的宝贵工具。
Cohen 定义了许多表征 MLOps 解决方案的方面,他收集并验证了每个包含的解决方案的数据点。 其中一些,例如客户数量或总资金,很有趣,但在某种意义上也微不足道——它们可以适用于任何领域的任何公司。 我们的注意力被我们认为可能唯一适用于 MLOps 解决方案的许多方面引起了。
产品重点就是其中之一。 它指的是解决方案是否更侧重于数据、数据管道或两者。 一些解决方案监控和观察诸如模型的输入和输出、数据的漂移、损失、精度和召回准确度等事物。 正如科恩所说,其他一些人围绕数据管道做“相似但不同的事情”。
只有少数解决方案可以同时做到这两种情况。 他们中的一些人正在一个接一个地做,而另一些人则试图在事件之间建立关联,科恩继续补充道。 如果您的数据有问题,这可能意味着某些服务器出现故障,或者 CPU 处于 100%。 如果可以关联不同的输入,则可以更快地识别问题。 Cohen 指出,DevOps 和其他团队可以收到通知,这也是 New Relic 正在做的事情。
然后是角色方面,它确定了每个解决方案迎合的角色类型。 以数据为中心的解决方案可以满足数据科学家和数据科学主管的需求,也可以满足机器学习工程师和数据分析师的需求。 根据 Cohen 的说法,以数据管道为中心的解决方案更面向 DataOps 工程师。
高管也可以从 MLOps 解决方案中受益。 例如,通过为他们提供仪表板来监控在 GPU 上训练机器学习模型的成本或损坏的模型如何影响业务 KPI。
右、左、中功能
Gavish 指出,关注可观察性可能有助于识别背景差异。 在生产中运行的机器学习模型的可观察性与为这些模型提供数据的数据管道的可观察性非常不同。 那里有很多重叠,但人们使用的堆栈也有差异。
作为一家管道可观察性公司,Monte Carlo 专注于数据湖、数据仓库和分析仪表板,Gavish 继续解释说。 AI 可观察性解决方案可能更多地关注人们用来训练和部署机器学习模型的堆栈以及在该上下文中使用的框架和库。
对于 Gavish 和 Monte Carlo,未来的主要目标是缩短检测时间。 在过去的两年里,他们已经从几周或几个月缩短到了几个小时。 展望未来,目标是更接近分钟标记。
从某种意义上说,数据问题很复杂,因为基础设施中的操作问题可能会导致它们、数据漂移或某些代码更改而产生意想不到的后果。 加维什说,最终,他们还希望从一开始就帮助防止事故发生。 他声称,通过利用他们从数据健康问题中学到的知识以及如何检测和解决这些问题,这实际上是可能的。
MLOps 解决方案需要考虑的另一个方面是它可以应用的数据类型。 Cohen 指出,大多数解决方案都使用表格数据,因为它是最简单的用例,也是解决问题最多的用例。 一些解决方案现在正在转向图像和音频,以此作为解决其他用例和差异化的一种方式。
科恩分析中最复杂、最多样化的一个方面被重点介绍。 有右侧、左侧和中心的功能,它们也倾向于围绕每个解决方案的焦点聚集。 以数据为中心的解决方案提供的功能主要围绕漂移。 它可以是标签的数据漂移或概念漂移。
还有数据质量和数据完整性,根据 Cohen 的说法,这两者“可能相同,但有点不同”。 然后,我们有监控偏见和公平性,鉴于几个月前发布的欧盟 AI 法规,这越来越受到关注,再加上异常检测、分割、跟踪和一般的可解释性。
科恩发现,这些是人们入门所需的基础知识。 通常情况下,即使对 Cohen 来说,事情也不是完全简单的,他不得不着手进行相关研究,并直接询问供应商他们在幕后做了什么。
MLOps 状态是一个充满激情的项目。 它的根源可以追溯到 Cohen 号召数据科学家采取行动以监控与其模型相关的一切的动机,而不仅仅是模型本身。 作为写作的一部分,Cohen 研究了许多监控解决方案。
当 2 年后他再次访问这个空间时,他意识到那里有 30 多家新公司。 Cohen 的研究使 MLOps 领域的投资金额达到惊人的 38 亿美元,他预计该领域将出现整合。
然而,在此之前,The State of MLOps 项目正在扩展以包含更多工具,Cohen 越来越多地但很高兴地忙于尝试满足更多请求。 这项工作太好了,不能不分享,对于任何想要驾驭复杂的 MLOps 环境的人来说,它都是一个有用的工具。