又到了一年中的那个时候:关于 2021 年人工智能状况的报告已经发布。 几天前,ZDNet Big on Data 的同事 Tony Baer 报道了 Matt Turck 的机器学习、人工智能和数据报告。 本周,这是由 Nathan Benaich 和 Ian Hogarth 撰写的 2021 年 AI 状况报告。
在发布了可能是关于 2020 年 AI 状况的最全面报告之后,Air Street Capital 和 RAAIS 创始人 Nathan Benaich 以及 AI 天使投资人和 UCL IIPP 客座教授 Ian Hogarth 又回来了。
在即将成为一项重要的年度传统的情况下,我们与 Benaich 和 Hogarth 进行了会面,讨论了报告中对我们来说很突出的主题。
MLOps,生产中的机器学习
首先,这与图尔克和 Baer 报告的主题有重叠,并且有充分的理由。 正如贝尔指出的那样,IPO浪潮和独角兽的泛滥正在将这个市场变成自己的部门,这是不容忽视的。 如需市场趋势概览,我们鼓励读者查看 Baer 的报道。
也就是说,我们的感觉是 2021 年人工智能状况报告涵盖了更多主题:人工智能研究、行业、人才和政治的最新发展,同时它也冒险进行预测。 事实上,Benaich 和 Hogarth 一直在跟踪他们的预测,而且他们做得很好。 例如,他们在 2020 年正确预测了英伟达收购 Arm 以及 AI 和生物技术相关 IPO 的障碍。
正如 Benaich 指出的那样,由于是不同的(主要是处于早期阶段的)机器学习公司的投资者,他们可以接触到主要的人工智能实验室、学术团体、新兴初创公司、大公司以及在政府工作的人。 因此,他们试图将所有这些不同的角度综合到一个开源的公共产品中,旨在全面告知所有利益相关者。
我们选择了一些在报告中对我们来说很突出的总体主题,因为我们也在全年中确定了这些主题。 第一个是 MLOps——将机器学习引入生产的艺术和科学。 在实施 AI 时,重点正在从闪亮的新模型转移到可能更平凡但实用的方面。
随着机器学习模型的能力和可用性不断增强,模型改进带来的收益变得微不足道。 在这种情况下,机器学习社区越来越意识到更好的数据实践以及更普遍的更好的 MLOps 对构建可靠的机器学习产品的重要性。
Benaich 指出,他们认为重要的是要强调在更多具有行业头脑的学术工作中围绕数据质量和最终传播到 ML 模型的数据中可能存在的各种问题重新关注,以确定模型是否预测良好:
“很多学术界都专注于在静态基准上竞争,在这些基准上离线展示模型性能,然后进入工业界。所以第一代有很多关于——让我们得到一个适用于特定问题的模型,然后 随时处理任何问题或任何变化。
MLOps 投入了大量资金、兴趣和工程时间。 这是因为机器学习不像静态软件产品,您可以编写一次就可以忘记。 你必须不断更新它,而不仅仅是更新模型。
您必须查看您的课程可能如何随时间漂移,或者您是否仍在使用正确的基准来确定您训练的新模型是否会在生产中工作。 您可能会遇到一些问题,例如为您的模型选择不同的随机种子,然后在真实世界的数据上看到完全不同的行为,甚至您一直在使用的数据都是垃圾”。
这在直觉上听起来是对的,并且可能与任何使用过机器学习模型和数据管道的人产生共鸣。 现在人们正在为这种现象命名,例如分布变化(数据集版本不匹配)和数据级联(影响下游操作的数据问题)。 由于命名事物是开始分析它们并更认真地对待它们的第一步,这是一件好事。
以数据为中心的人工智能:好数据、坏数据、分布变化和数据级联
当测试/部署时的数据与训练数据不同时,就会发生分布偏移。 在生产中,这通常以概念漂移的形式发生,其中测试数据随时间逐渐变化。
随着机器学习越来越多地用于现实世界的应用程序,对分布变化的深入理解变得至关重要。 Benaich 和 Hogarth 在报告中指出,这始于设计具有挑战性的基准。
Benaich 认为,很难在现实世界中确定具体的分布转移示例,因为组织可能不希望世界知道他们受到此类问题的影响。 但这可能影响的领域之一是各种零售网站的定价。
Benaich 指出,后端通常有一个由机器学习驱动的动态定价引擎,其输出取决于他们掌握了多少关于你的信息。 因此,分销转移可能意味着您最终会为您正在查看的特定产品获得非常非常不同的价格,具体取决于正在使用的数据。 有趣的是,这种做法正是中国市场监管机构针对的对象。
Benaich 强调,至少有两个主要的新数据集发布,旨在处理分布变化,即 WILDS 和 Shifts,分别由许多美国和日本的大学和公司以及 Yandex 开发。
Benaich 指出,在学术界使用更多面向行业的数据集意味着最终的学术项目更有可能在生产环境中取得成功,因为当你从工业界转移到学术界时分布转移较少,反之亦然。
谷歌研究人员将数据级联定义为“导致数据问题产生负面下游影响的复合事件”。 在对来自美国、印度、东非和西非国家的 53 名从业者进行的一项调查的支持下,他们警告说,当前的做法低估了数据质量并导致数据级联。
这是一个相当直观的想法——多米诺骨牌效应。 如果您在开始时遇到问题,那么当您到达最后一张多米诺骨牌时,它很可能会解决。 值得注意的是,绝大多数数据科学家都表示遇到过其中一个问题。
当试图归因于这些问题实际发生的原因时,主要是由于缺乏对数据在 AI 工作背景下的重要性的认识,或者缺乏该领域的培训,或者没有获得足够的专业数据来进行研究。 他们正在解决的特定问题。
这表明在机器学习的世界中,除了“好数据”和“坏数据”之外,还有更多的细微差别。 由于数据集是多方面的,不同的子集在不同的上下文中使用,并且不同的版本不断演变,因此上下文是定义数据质量的关键。 机器学习在生产中的洞察力促使人们将注意力从以模型为中心的人工智能转移到以数据为中心的人工智能。
以数据为中心的 AI 是斯坦福大学 Chris Ré 的研究小组 Hazy Research 提出的一个概念。 如前所述,数据的重要性并不新鲜——已有成熟的数学、算法和系统技术用于处理数据,这些技术已经发展了数十年。
新的是如何根据现代 AI 模型和方法构建和重新检查这些技术。 就在几年前,我们还没有长寿的人工智能系统,也没有目前这种强大的深度模型。
下周加入我们,我们将继续与 Benaich 和 Hogarth 进行对话,涵盖语言模型、AI 商业化和 AI 驱动的生物技术等主题。