Adata 网格已成为解决困扰许多大型组织的数据访问挑战的可能解决方案。 这种方法将数据从“烟囱”中取出,并将其直接交给业务用户,但以可控的方式保持强有力的治理。
如果做得好,数据网格可以加快数据驱动应用程序的上市时间,并产生更强大和可扩展的数据产品。 这些好处具有战略意义。 但以正确的方式进行扩建至关重要。 否则,善意的计划可能会在自身压力下崩溃。 例如,一家领先的生命科学公司从技术角度来看,已经为数据网格所需的艰苦工作做好了准备。 但它没有做好准备,而且发现更具挑战性的是协调数据管理实践,并在不同业务部门之间就数据产品和用例的集中化达成一致。 由于未能预见到这些问题,项目被迫中途暂停,从而造成混乱,并促使业务用户恢复到旧的、效率较低的数据管理方式。
通过了解什么是基于领域的数据管理并遵守一些核心规则,公司可以避免其他公司面临的学习陷阱,并开始更快地获得数据网格的回报。
数据网格到底是什么?
“数据网格”一词是由 Zhamak Dehghani 于 2019 年创造的,当时她是 Thoughtworks 的负责人。 它作为捕捉分布式数据访问思想的一种方式而流行。 但在实践中对其含义的解释比比皆是。 它是一项新技术,它是否会使现有的数据存储库变得过时,或者它是一种理论构造?
麦肯锡将数据网格定义为一种数据管理范例,它在域中组织数据,将其视为产品,支持自助服务访问,并通过联合治理支持这些活动。 这就是为什么每个元素都很重要。
基于域的数据管理允许数据位于任何地方。 业务团队拥有数据并对其质量、可访问性和安全性负责。 域是围绕特定业务目的组织的数据集合,例如营销、采购或特定客户群或区域。 它们包含原始数据以及称为数据产品的独立元素。 这些数据产品捆绑数据以支持不同的业务应用程序,并且它们的设计具有直接插入相关应用程序或系统所需的内部接线。 自助数据基础设施是数据网格的基础,并充当中央平台,为业务用户提供查找和访问数据的公共场所,无论数据托管在何处。
治理以联合的“中心辐射”方式进行管理。 在这种方法下,一个小型中央团队设置控制措施,并由支持数据基础设施强制实施。 代码中定义的标准使企业内的数据产品团队能够遵守元数据文档、数据分类和数据质量监控。
这些元素共同创建了一个自组织网格,在该网格中,业务中的不同团队可以聚集在一起,定义其数据需求,就如何共享新数据达成一致,并就使用该数据的最佳方式进行协调。
如果执行得当,数据网格可以带来强大的优势
大多数产品和解决方案的突破都发生在企业内部,而如今如果没有数据,此类突破几乎不可能发生。 数据网格使业务用户能够更快地获取关键信息,从而带来以下好处:
加快数据分析应用程序的上市时间:数据产品可以更快地响应数据需求,并通过数据生产者和数据消费者之间的直接交换为业务用户提供对高质量数据的可扩展访问。
为业务用户解锁自助数据访问:基于领域的结构减少了对集中团队的依赖,使业务用户能够更直接地获得洞察力,并使他们能够“参与其中”。 此外,高度的自助服务促进了采用,使非技术用户能够轻松地处理数据并使用数据产品来回答业务问题并准备基于事实的决策。
增强数据智商:更多地参与数据构建学习,使业务用户能够随着时间的推移设计日益复杂的应用程序。 通过塑造他们使用的数据和资产,业务用户可以确保所创建的内容符合目的,从而带来更高的投资回报。 例如,一家大型工业公司建立了自助服务仪表板,使员工能够发现现有的数据产品并构建个人报告。 与宣传活动一起,这项工作激活了 300 名新数据用户。
在实施数据网格之前,一家大型采矿组织拥有数百个分散在世界各地的孤立运营数据库,开发分析用例需要数月时间。 转向数据网格后,该公司大幅减少了数据工程活动所花费的时间,开发用例的速度比以前快了七倍,同时还提高了数据稳定性和可重用性。
数据网格涉及整个业务
获得数据网格的全部优势需要仔细的编排。 虽然基于领域的架构引起了越来越多的兴趣,但技术讨论往往占主导地位,掩盖了其他关键要素。
例如,业务用户可能会认识到他们当前的数据管理系统存在问题,但觉得坚持已知的内容比承担数据域和产品的直接所有权带来的破坏更好。
即使那些渴望开始的人也可能没有意识到组织结构需要如何适应才能实现数据产品和用例的稳定流动。 例如,对于设置数据网格的组织来说,发现所需文档丢失、分类不完整或者需要在使用数据之前创建新流程的情况并不少见。 除非企业在资源配置中对此做出规定,否则这些问题可能会延迟完成。 特别是对于非技术专业人士来说,学习曲线可能会很陡峭,除非得到适当的支持,否则基于领域的数据所有权的势头可能会减弱。
以下实践可以帮助公司缓解这些学习曲线问题并增加成功实施数据网格的几率。
把业务放在首位
数据网格实施的管理必须来自业务部门,并得到执行发起人和正式变更管理团队的支持。 变革团队中的数据网格传播者可以帮助业务部门分析其数据格局并定义与组织共享的最有价值的数据产品。 一些组织发现将数据网格定位为数字化转型等战略计划的一部分很有帮助。 这可以帮助设定变革的背景和理由。 企业内部还需要有一个忠诚的数据产品负责人,愿意接受在内部向其他业务用户和应用程序团队“销售”数据的挑战。 此外,还应该有一个中央数据基础设施团队,能够在尚未完全成熟的工具中实现“数据治理即代码”。
让 ROI 引导数据配置
组织有时会陷入困境,试图确定集中式还是分散式数据管理方法是否最好,但答案是这两种方法都可以有效(图表 2)。 拥有现代 IT 环境和完善的本地数据存储库的公司可能会通过虚拟化链接公开数据(同时仍将其注册在中央数据市场或目录中)来获得更多价值。 相比之下,那些正在进行企业资源规划 (ERP) 转型或其他大型 IT 变革的企业可能会发现,首先转向中央数据平台并在核心数据产品上创建单一逻辑会更好。