不仅仅是文字:阐明数据术语混乱

2023-06-08 0 736

不仅仅是文字:阐明数据术语混乱

我们需要 XYZ。 确实。 它出现在所有分析报告中,它的趋势超出了图表,我们的竞争对手也有。 因此,让我们找到一个拥有它的供应商,然后让我们自己投资。 应该这样做。

听起来有点熟? 希望贵公司的技术投资决策不是以这种方式做出的。 但是随着技术的发展比以往任何时候都快,很难跟上所有的术语。 不幸的是,有些人将术语视为混淆层,意在美化提出它的人、炒作产品,并让乱用术语的人显得聪明。

这可能有些道理,但这并不意味着术语没有用。 相反,术语是为了满足真正的需求,即描述快速发展领域中的新兴概念。 理想情况下,共享词汇表应有助于理解不同的概念、细分市场和产品。

恰当的例子:数据和元数据管理。 您以前听说过数据管理、数据可观察性、数据结构、数据网格、DataOps、MLOps 和 AIOps 等术语吗? 但是,您知道它们每个的确切含义以及它们之间的关系吗? 这是你找出答案的机会。

数据层
尽管我们作为分析师活跃在更广泛的数据领域,但我们承认并非上述所有内容对我们来说都是完全清楚的。 所以当我们遇到 Maarten Masschelein 和 Tom Baeyens 时,我们想我们会征求他们的意见。 Masschelein 和 Baeyens 是 Soda 的联合创始人,这家初创公司刚刚获得 Gartner 颁发的“数据管理领域的优秀供应商”称号。

除了被官方宣布很酷之外,他们可能知道一两件事还有另一个原因:他们一直在身边。 Masschelein 是 Collibra 的第五名员工,用他的话说,他是第一个向首席数据官销售软件的人——在那之前甚至还没有出现。 Baeyens 是 jBPM 的创始人和项目负责人,jBPM 是一个传奇的业务流程管理 (BPM) 开源项目。

让我们从数据结构开始。 Masschelein 将其视为按比例组织数据的框架——一个元层,用于以统一的方式访问与组织相关的所有数据,无论它们位于何处。

数据结构侧重于这种统一数据访问的技术方面。

数据网格是一个类似的概念,但在关注组织方面的意义上有所不同。 Masschelein 发现数据网格类似于数据治理原则的现代化版本,适用于更广泛的数据团队。 目标是构建和组织,消除过去的一些瓶颈,例如对数据仓库团队的依赖。 马斯谢林说:

“对于数据网格,它从根本上是关于构建数据产品和数据服务。所以它是数据产品思维。在数据治理中,我们谈论将数据作为资产进行管理。当我们谈论将数据作为产品进行管理时,这更具体,最终 .这是我们应该有核心平台服务的概念。但除此之外,我们需要围绕数据领域、领域、业务、专业知识和知识建立结构,使它们能够自助服务。我认为这就是 钥匙”。

Masschelein 继续补充说,数据管理是一个已经存在了几十年的术语。 数据管理协会对此进行了广泛的描述,该协会围绕如何管理数据做了很多工作。 最终,其中一部分是元数据管理,它衍生出数据编目软件和数据沿袭功能。

Masschelein 将数据监控、数据可观察性和数据测试视为更广泛的数据管理框架内质量管理的专门子域。 Baeyens 添加了有关数据可观察性的上下文:

“你有工程师构建数据管道。他们准备用于数据产品的数据,例如机器学习模型。有一群工程师定期开发新产品。一旦这些产品投入生产,那就是可观察性的开始。这就是那里 数据实际上可能会变坏。如果使用数据的模型没有注意到数据是坏的,这将导致各种代价高昂和危险的后果“。

数据监控、测试、健身和协作
至于 DataOps,它是关于使用与数据相关的功能,在最佳实践流程中组织起来,以更快的速度交付数据产品,所有这些都具有更高的可靠性。 Masschelein 说,许多小流程需要到位并标准化,以便更好地处理数据,类似于我们在软件工程中对 DevOps 所做的工作。

MLOps 似乎可以与 AIOps 互换使用,它依赖于良好的 DataOps 基础但更专业。 例如,在 DataOps 中,我们不会监控预测准确性。 这特定于数据产品,也特定于数据产品的生命周期。 Masschelein 从生命周期的角度来思考它:

“这是两件独立的事情,因为数据集的生命周期最终与机器学习或数据产品的生命周期并没有紧密耦合。也有不同的人在做这件事。在管理数据和 DataOps 方面,我们有数据 可以是组织外部的生产者,并且您有内部生成的数据。

另一种看待它的方式是工具领域。 如果你看一下监控和可观察性软件堆栈,我们在底部有基础设施。 所以首先,我们编写应用程序,然后现在我们使用数据和机器学习作为两种新层”。

两人指出,我们刚刚开始使用软件和平台来帮助监控这些相对较新的层,而其他层已经存在了很长时间。 这就是 Soda 自己的平台发挥作用的地方。 这个名字的出现是因为创始人喜欢无声数据问题冒出来的想法,就像汽水一样。 所以 soda 涵盖了监控、测试、数据适配和协作。

监控是关于自动监控数据集的问题。 这意味着要弄清楚落入您环境中的数据集是否存在异常。 例如,您这次大约处理了多少条记录? 与上周同一天相比,是否异常? 例如,Soda 可以使用机器学习来发现异常。

但是监控只涵盖了您可能遇到的数据问题类型的一小部分。 这就是下一步要进行数据测试和验证的原因。 这是您启用数据工程师和主题专家的地方。 在这里可以指定诸如“我们在此列中只能有 X% 的缺失数据”、“我们需要参照完整性”或“一组允许的值”等规则。

这一切都很好,但是如果你有一个用于发现数据问题的系统,它会产生很多警报,所以问题是:你如何处理这些警报? 您经历的业务流程是什么? 这就是数据适应性仪表盘的用武之地。它支持 SLA 跟踪,让数据所有者了解整个组织对数据的所有期望以及围绕问题解决的工作流程。

最后但同样重要的是,协作是一个跨领域的问题。 具有协作功能使对问题具有不同知识的人(通常拥有隐性的、未记录的知识)能够一起工作并解决问题。 Baeyens 提到,这还涉及传统上不被认为是协作的功能,例如使分析师能够在没有数据工程师参与的情况下自行管理领域知识。

肥皂水和苏打水
Baeyens 为 Soda 带来的 BPM 专业知识已被用于构建平台,特别是不同模块如何在工作流进程中组合在一起。 Soda 使用 SQL 源,Spark 集成几乎就绪。 目标是能够覆盖尽可能多的数据环境。

根据 Gartner 的定义,Soda 可能无法涵盖综合数据结构的所有关键支柱,但话又说回来,很难想出很多解决方案。 然而,它确实增加了数据目录,专注于 DataOps。 此外,汽水针对不同的用户群,这也反映在其产品中。

有一个针对数据工程师的开源层。 Baeyens 认为用户群不一定对 SaaS 产品感兴趣。 根据 Baeyens 的说法,开源 Soda SQL 的目标是简单并使用其目标受众喜欢使用的技术——SQL 和 YAML。

Soda SQL 的发展和采用情况良好,这是人们了解 Soda 的一种方式。 但是,如果他们喜欢他们所看到的并且他们的需求增长到包括分析师和 CDO 等人员,那么是时候转向付费的 SaaS 版本的 Soda 了。

该公司最近获得了 1150 万欧元的 A 轮融资,加上他们之前的种子资金,总计约 1400 万欧元。 这应该为 Soda 提供一条良好的跑道来开发其产品,目的是发展工程和上市团队。

如果没有别的,Soda 的创始人似乎对他们经营的环境有着坚定的把握。

申明:本文由第三方发布,内容仅代表作者观点,与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不代表本网对其真实性负责。

七爪网 行业资讯 不仅仅是文字:阐明数据术语混乱 https://www.7claw.com/57426.html

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务