这个用于构建机器学习系统的 LinkedIn 工具现已成为 LF AI & Data Foundation 的一部分

2023-08-26 0 775

这个用于构建机器学习系统的 LinkedIn 工具现已成为 LF AI & Data Foundation 的一部分

随着组织开始更广泛地使用机器学习,他们不仅需要管理数据和使用数据的机器学习模型,还需要管理将原始数据组织成模型可以使用的概念的功能。

今年早些时候,LinkedIn 开源了 Feathr,这是该公司内部使用的功能存储,用于使用 PB 级数据的数百种不同的机器学习驱动的服务,例如显示您可能想阅读的有趣的工作或博客文章。 它是 Azure 功能存储服务背后的技术,现在已成为 Linux 基金会 AI 和数据基金会的一部分,使其对更广泛的开发团队更有用。

“特征存储和 Feathr 是如何进行 MLOps 以及如何通过涵盖企业需要考虑的所有事情来高效、有效和合规地部署机器学习模型的重要组成部分,”高级工程师 David Stein 在 LinkedIn 从事 Feathr 工作的人告诉 TechRepublic。

机器学习如何发现特征
在机器学习术语中,特征是机器学习模型的特定数据输入 – 将其视为数据库中的列或代码中的变量。

“如果你试图预测一个人是否会买一辆车,并且你有一个人和一辆车作为模型的输入,并且预测是购买或不想购买的可能性,那么 模型的设计可能包括诸如人的收入水平或他们最喜欢的颜色之类的信息:你对他们的了解以及关于汽车的信息,”斯坦说。 “如果你有一个包含十亿行的巨大数据集,你会想要选择一组列作为起点,然后你将围绕如何使用这些特征来设计模型来进行预测。”

有些功能就在数据中,例如产品 ID 和日期,但其他功能需要进行处理,因此它比仅仅指向数据库中所需的列更复杂。

“您需要的所有其他有用功能可能需要从各种其他数据资产中进行计算、连接和聚合,”斯坦解释道。

如果您的机器学习模型适用于交易,那么过去三个月餐馆交易的平均价值将是这种特征。 如果您正在构建推荐系统,数据是用户、商品和购买的表格,并且您可以使用该功能来提出推荐,例如过去一周或一个月购买了哪些产品,是否有人购买了该产品 产品在工作日或周末的情况,以及购买时的天气情况。

复杂的机器学习系统具有数百或数千个特征,构建将数据转换为这些特征的管道需要大量工作。 他们必须连接到多个数据源,将特征与标记数据结合起来,同时保留“时间点”正确性等内容,将这些特征保存到低延迟存储中,并确保在使用这些特征时以相同的方式处理这些特征 模型来进行预测。

“在 LinkedIn,有很多很多的数据资产,例如数据库和 ETL 数据存储,以及有关职位发布、广告、提要项目、LinkedIn 用户、公司、技能和工作以及所有这些内容以及 LinkedIn 经济的不同类型的信息。 图表,”斯坦说。 “有大量不同的实体可能与特定的预测问题相关。”

在开始选择和计算它们包含的各种特征之前,仅查找并连接到所有这些数据集就需要大量工作。

“构建机器学习模型的工程师必须不遗余力地寻找这些信号可能需要来自的各种数据资产的详细信息,”斯坦说。 他们还必须花时间标准化如何访问数据:不同的数据源可能会将相同的信息标记为用户 ID、配置文件 ID 或 UID。

两个人使用相同的数据来训练不同的模型最终可能会为他们的不同项目创建相同的特征。 这是浪费精力,如果特征定义略有不同,它们可能会给出令人困惑的不同答案。 另外,每个团队都必须为每个项目构建复杂的特征工程管道。

Feathr:功能平台
功能存储是功能的注册表,可让您一次完成所有工作。 每个项目都可以使用相同的管道,如果您需要其他开发人员已经创建的功能,您可以重复使用它。 这就是羽毛的功能。

Stein 建议将它们视为包管理器。

“特征存储旨在让您能够更简单、更轻松地将所需数据导入到机器学习应用程序和机器学习模型中,”他说。 “这通常是一个非常复杂的设置,特别是对于运行一段时间的大型项目,特别是在有许多项目使用类似数据集的公司中。 我们希望让机器学习工程师能够轻松导入其特征作为输入,然后编写模型代码。”

Stein 没有找到正确的数据集并编写代码将数据聚合成特征,而是进一步解释说,“机器学习工程师希望能够说‘好吧,我想要用户的经验年数,我想要一些关于他们的经验的信息’” 公司’,并将其显示为输入表中的列。” 这样,他们就可以将时间花在模型上,而不是特征基础设施上。

这意味着开发人员在每个机器学习项目上的工作量会减少很多; 在一个案例中,由于 Feathr,数千行代码变成了仅仅十行。 在另一个例子中,由于特征存储有内置的运算符,原本需要数周时间的工作在几个小时内就完成了。

任何开发流程中的手动流程越少,它就越不脆弱,因为你不会要求某人每次都完美地手工完成一件复杂的事情。 拥有这些内置功能意味着更多的人可以使用这些复杂的技术。

“Feathr 提供了在原始事件数据上定义滑动窗口活动信号的能力,”Stein 说。 “如果没有一个知道如何正确做到这一点的平台,这在过去是很难做到的。 使用更基本的工具来正确完成任务已经足够困难了,以至于许多团队甚至不会尝试使用这样的信号。”

Feathr 还负责将功能存储在低延迟缓存中,以便它们可以在生产中使用。

“当应用程序尝试进行推理时,它会询问某些特征的值,以便它可以通过其模型运行该值来做出一些预测,”斯坦补充道。 “您希望特征存储机器能够快速回答,以便可以非常快速地回答该查询。”

在训练机器学习模型时,您不需要那么低的延迟,这样就可以从 Spark 等其他位置提取数据,但使用 Feathr,您无需编写不同的代码来执行此操作。

“从编写模型代码的机器学习工程师的角度来看,我们希望这些东西看起来是一样的,”斯坦说。

准确性和可重复性对于机器学习很重要,了解模型如何产生结果以及它们使用的数据也很重要。 特征存储可以更轻松地审核(Azure 特征存储有一个友好的用户界面,显示数据来自何处以及在何处使用),并且也可以使其更易于理解,因为您看到的是简化的命名而不是所有不同的命名。 数据标识符。

尽管数据访问是通过特征存储集中进行的,但 Feathr 使用基于角色的访问控制来确保只有应该有权访问数据集的人才能将其用于他们的模型。 开源 Feathr 使用 Azure Purview,这意味着您只需设置一次访问控制,即可在任何地方一致、安全地应用它们。

有效的企业机器学习
因为它是为 LinkedIn 内部使用的技术和配置而构建的,所以开源 Feathr 也意味着使其更加通用,因此对于使用与 LinkedIn 不同技术的企业来说它将很有用。

“业内越来越多的人遇到此类问题,”斯坦指出。 “构建功能管道的每个组织都需要弄清楚如何解决这些工程挑战,如何确保以正确的方式使用事物 – 这些是您可以构建一次并在平台解决方案中构建良好的东西。”

第一步是与 Microsoft 合作,让 Feathr 在 Azure 上良好运行。 这包括支持更多的数据源,这些数据源在整个行业中比 LinkedIn 更常见。

如果您在 Azure 上使用 Feathr,则可以从 Azure Blob 存储、Azure Data Lake 存储、Azure SQL 数据库和数据仓库提取数据。 定义功能后,可以使用在 Azure Databricks 或 Azure Synapse Analytics 中运行的 Spark 生成它们。

功能存储在 Azure Redis 缓存中以实现低延迟服务,并在 Azure Purview 中注册以在团队之间共享。 当您想要使用机器学习模型中的功能时,可以从 Azure 机器学习内部调用它们:将模型部署到 Azure Kubernetes 服务集群,它可以从 Redis 缓存中检索功能。

下一步是将该项目引入 LF AI 和数据基金会,这将使 Feathr 超越 Azure 生态系统。

“这种合作和联系改善了 Feathr 工作人员的网络,”斯坦说。 “我们可以获得与相关项目合作的资源和机会。”

协作和贡献很重要,因为特色商店是一个相当新的想法。

他补充道:“该行业正在对这些工具需要什么以及它们需要做什么的细节有更深入的了解,我们正在努力根据我们所学到的知识为此做出贡献。”

正如开源项目时经常发生的那样,这项工作也让 Feathr 对 LinkedIn 本身变得更好。

“LinkedIn 工程部门有一种开源文化,我们认为这些东西通常有用并且会引起行业的兴趣,”Stein 说。

新用户为构建该工具的人员提供了一个机会,让他们通过了解如何使用该工具来解决日益多样化的问题来更多地了解该工具的有用之处。 他指出,这也是一个强制功能,可以使文档足够好,以便新用户可以拿起该项目并了解如何使用它来解决问题以及它与替代方案的比较。

“一个全面的产品包含很多东西,”斯坦说。 “开源并将解决方案置于公众视野中是一个很好的机会,可以通过这些事情来使产品变得更好。 将 Feathr 引入开源社区,现在又引入 Linux 基金会,是继续将其发展为适用于更广泛的机器学习和用例的更好工具的过程的一部分。 这是让它变得更好的途径:自私地,为了 LinkedIn,也为了社区。”

申明:本文由第三方发布,内容仅代表作者观点,与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不代表本网对其真实性负责。

七爪网 行业资讯 这个用于构建机器学习系统的 LinkedIn 工具现已成为 LF AI & Data Foundation 的一部分 https://www.7claw.com/60558.html

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务