数据孤岛在 2022 年仍然是一个问题吗? 你打赌。
但是 IT 环境在不断发展; 科技界看待和处理孤岛的方式不断变化。 (另请阅读:打破孤岛:如何整合、清理和永久使用您的数据。)
这就提出了一个问题:数据孤岛会完全消失吗?
本文提供了数据孤岛的背景知识,并探讨了可以帮助您在组织内消除它们的新兴解决方案。
什么是数据孤岛?
数据孤岛是指有价值的业务数据卡在网络或系统中的某个位置,而这些数据的用处不如其他情况。
那么,与数据孤岛相反的是一个系统,数据总是自由地流向任何可以最好地使用它的地方。
不难想象在大型复杂网络中创建数据孤岛的场景类型。 供应商锁定是一个常见的例子,但任何数据无法到达需要去的地方的情况都会造成数据孤岛。
为什么数据孤岛有问题?
信息的自由流动对企业系统至关重要; 如果信息不能共享,它可能就没有那么有用了。
例如,如果孤立的数据库包含有关客户购买历史和产品信息的信息,则公司更广泛的网络将无法利用该数据来告知其战略方向。 (另请阅读:使用集成数据分析平台摧毁孤岛。)
除了增加存储容量之外,数据孤岛也是一个问题,因为它们会降低编译信息的效率。 数据的价值在于它的用例:数据孤岛阻止数据移动到它可以为企业带来最大好处的地方。
为什么数据孤岛如此难以摆脱?
根据 Krishna Subramanian 的一篇文章,公司经常无法消除数据孤岛的主要原因有两个:
计算成本。
存储成本。
这两个原因来自同一个地方:随着公司的发展和获取新类型的数据,他们的数据集变得更大、更复杂——但他们的数据交付系统并不总是以同样的速度增长。 这意味着越来越多的数据被放入冷存储中以供“最终”使用——只是“最终”并不总是会出现。
这既需要计算能力,也需要金钱来维持存储容量。
此外,数据孤岛很难消除,因为它们不受管理的时间越长,它们就会变得越大。 而且它们越大,对于指定处理它们的团队来说,它们就会变得越复杂和昂贵。
简而言之,数据孤岛很难消除——但重要的是要尽量避免它们阻碍企业网络的整体成功。
数据孤岛解决方案
1. 数据湖
当公司将所有结构化和非结构化数据存放到一个集中的存储库中时,就形成了一个数据湖,这些数据保留在那里以便于检索。
然而,就像一个真正的湖,数据湖中的数据是非常无定形的。 如果你需要从一个物理湖中拉出一种特定的鱼,你就必须花一些功夫来弄清楚那条鱼在哪里。 在许多情况下,数据湖也是如此。
换句话说,Subramanian 写了一篇关于数据湖如何在没有良好治理的情况下最终成为数据“垃圾场”的文章。 (另请阅读:数据治理是每个人的事。)
2.ETL与ELT
在处理数据孤岛时,有两个相对较新的数据流程在争夺业务用途:
ETL,代表“提取、转换、加载”。
ELT,代表“提取、加载、转换”。
在这些过程中的每一个过程中,企业都从遗留系统中提取数据,将其加载到新系统中并进行转换。 这两个过程的唯一区别在于业务是在加载过程之前还是之后转换数据; 在 ETL 中,它发生在之前,而在 ELT 中,它发生在之后。
为什么要区分? 一些分析师指出了加载后转换的价值:转换后的数据可能需要更多的资源来加载——因此您可以通过先加载和最后转换来节省这项工作。 但是,这使得转换工作需要在加载之后完成,这对于一些人员和配置不同的业务来说并不方便。
在最近的基于云的 ETL 中,该过程可用于从不同的系统收集数据,或将本地数据移植到指定的云环境中。 基于云的数据存储仓库可以提高整体安全性、效率和容量,许多公司正在使用 AWS 和 Azure 等大型供应商服务来构建这些类型的平台。
3. API
API,即应用程序编程接口,作为数字系统的结缔组织受到了广泛关注。
从理论上讲,API 可以解决很多数据孤岛问题——但仅限于工程师和其他利益相关者可以轻松地将 API 作为管道连接的程度。 不过,这又一次说起来容易做起来难。
4. AI 和 ML 与数据集成
在处理数据孤岛方面,新的人工智能 (AI) 和机器学习 (ML) 引擎也应运而生。
近年来,人工智能和机器学习取得了重大进展,现在能够以前所未有的水平对数据进行分类和移动。 因此,人工智能和机器学习可能代表着打破数据孤岛的未来。
通过使用 AI 和 ML 产生的洞察力和智能,公司可以制定更好的计划来跨分布式网络集成数据。 一种思考方式是将其视为“更智能的聚合系统”,其中 AI 和 ML 应用程序是催化剂,而技术(如 ETL/ELT)是实现这些目标的机制。
结论
一些专家谈到为数据创建“共享文化”。 其他人专门谈论不同的数据治理方法; 其他人仍然提到如何使用 AWS S3 等供应商服务,其中数据存储在对象存储桶中,以便使用元数据进行检索以识别其中的内容。
但除了这些一般性提示之外,有一件事仍然很清楚:数据孤岛可能会以一种或另一种形式存在于我们的企业网络中。 因此,开发新的工具和策略来应对它们至关重要。