多年来我们一直在使机器学习变得过于复杂。 有时我们会将其与过度炒作的人工智能相混淆,谈论用机器人推理取代人类,而实际上 ML 是通过高级模式识别来增强人类智能。 或者,当更基本的 SQL 查询就可以完成工作时,我们就会深入研究深度学习。 但如今 ML 的最大问题也许是我们使工具变得极其复杂,因为正如 Confetti AI 联合创始人 Mihail Eric 所言,ML“职责不断转移、新的工作线的工具环境对于新手来说尤其困难”。 领域”,这使得“迈出迈向 MLOps 的第一步相当困难”。
通常我们会寻求工具来让技术变得更容易。 MLOps 正在做相反的事情。 可以做什么?
它一直是工具
Eric 认为,问题在于没有人愿意被排除在机器学习淘金热之外。 鉴于下一个算法有望解决数十亿美元的问题,数十亿美元被用于创建新公司。 这些公司中的每一个都想向您出售一个新的模型/功能/指标/等等,商店(这只是数据库的一种不必要的奇特方式)。 事实上,根据最近发布的 2022 年斯坦福人工智能指数报告,机器学习(及相关人工智能)的私人风险投资在 2021 年增长至 935 亿美元,是 2020 年的两倍多。 反过来,我们看到更多的研究、更多的学生、更多的东西涌入机器学习。
还有更多的工具。 还有很多很多的工具。
Eric 指出,在此过程中,“整个领域仍在标准化构建成熟的机器学习管道的最佳方式。 围绕最佳实践达成共识将是一个 5 到 10 多年的轻松转变。” 与此同时,预计 MLOps 的环境会有些泡沫、混乱。
与此同时,要振作起来。 尽管 Google 和 Amazon(Eric 在 Amazon 期间负责 Alexa)等公司为 ML 的承诺定下了基调,“事实是,只有少数超复杂的 AI 优先企业拥有强大的机器学习基础设施来处理其 PB 级数据”。 数据,”埃里克强调。 我们大多数人都是机器学习新手,换句话说,无论我们的 LinkedIn 个人资料中可能有相反的说法。
或者“新手”这个词可能是错误的。 Eric 描述了许多拥有“合理规模的 ML”的组织,这些组织可能拥有“规模较大的专有数据集(数百 GB 到 TB)”,但“仍处于 ML 采用的早期阶段”。 他继续说道,对于此类公司,“他们甚至不一定需要这些超先进、亚毫秒级延迟、超实时的基础设施来开始提升他们的机器学习水平。”
那么他们应该做什么才能开始呢?
一步一步来
埃里克认为,关键是深呼吸,然后……少做一些事情:
聘请更有经验的人来帮助您考虑各种选择,思考不同的技术,并成为“愚蠢”问题的参谋。
仔细思考您想要解决的问题以及解决该问题所需的基本方法,而不是被闪亮的工具或平台分散注意力。
花费大量时间构建真实的系统,以便您可以亲身体验不同工具所解决的痛点。
最后一条建议与微软的 Scott Hanselman 最近提出的关于软件开发的建议产生了共鸣:如果你想更好地理解软件,你需要“运行真实的网站并扩展它们”。 正如汉塞尔曼和埃里克所建议的,在构建过程中,你会遇到仍然存在的所有粗糙边缘系统(以及系统的系统)。 就 MLOps 而言,这样做不会以某种方式使工具选项的混乱变得更容易管理,但构建基于 ML 的系统的实际经验有助于滤除信号中的噪声。
除了个人学习之外,Eric 乐观地认为,随着时间的推移,混乱的 MLOps 工具环境将会自行解决。 他推断,云超大规模企业和像 DataRobot 这样的小型公司都将构建端到端系统,这将使工具对于那些想要全力支持一个供应商的人来说更容易使用。
与此同时,埃里克的三个原则可以提供帮助。 关于第二个原则,值得记住投资者 David Beyer 曾经说过的一句话:“机器学习的肮脏秘密……很多问题都可以通过应用简单的回归分析或一些 if/then 语句来解决。” 更直白地说:有时我们希望将 ML 应用于通过 SQL 查询和“基本数学”更好地解决的问题。