-
现在,数据的新名词层出不穷,顶层的有数字城市、智慧地球、智慧城市、城市大脑……企业层面的有数字化转型、互联网经济,数字经济、数字平台…… 平台层面的有物联网,云计算,大数据,5G,人工智能,机器智能,深度学习,知识图谱……技术层面的有数据仓库、数据集市、大数据平台、数据湖、数据中台、业务中台、技术中台等等,总之是你方唱罢他登场,各种概念满天飞…
今天结合“数据中台”,以作者从事数仓行业多年的实战经验来看,数仓—大数据平台—数据中台的区别和本质联系,希望能拨云见雾!(13张架构图在文末,自取)
中台也好,数据中台也好,一直缺乏一个标准的定义,仅从字面上理解,数据中台是解决如何用好数据的问题,既然是概念,数据中台也被赋予了很多扩大的外延,也上升到了数据的采集、计算、存储、加工和数据治理等方面,这就和传统的大数据平台在功能和作用上产生了很大的重叠;而大数据平台又是从数据仓库发展起来的。那到底这三者的关系是怎么样的呢?
按照传统的定义,数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。从数据角度,数据仓库更适合传统的数据库,离线采集,数据一般为结构化的,每天处理数据量不易超过TB集,数据仓库一般在数十T到几百T以内,数据仓库一般为满足内生的应用,满足内部决策支持分析需求,当然随着数据仓库数据采集的要求越来越高,数据仓库本身也在不断的改进,从单机的ETL到集群的ETL,从传统的小机+DB,向PC服务器+分布式DB拓展,数据治理也逐渐增强,从元数据管理到数据质量管理,再到数据运维管控和数据安全管控,但其实数据仓库给企业留下的最大财富是企业数据模型,这些模型随着前端业务系统的发展变化,不断变革,不断追加,不断丰富和完善,即使系统不再了,也可以在短期内快速重建起来,这也是大数据平台能够快速建设起来的一个重要原因。
大数据平台则是指以处理海量数据存储、计算及流数据实时计算等场景为主的一套基础设施,包括了统一的数据采集中心、数据计算和存储中心、数据治理中心、运维管控中心、开放共享中心和应用中心。大数据平台之所以能够建设起来,不外乎内因和外因,外因是棱镜门事件带来的去IOE要求、外部硬件的变革和分布式开源技术的涌现;内因是非结构化、实时数据和海量数据的计算和存储压力,企业也寄希望从大数据平台除了满足对内需求,也能够实现一定的对外收益。
大数据平台的建设出发点是节约投资降低成本,但实际上无论从硬件投资还是从软件开发上都远远超过数据仓库的建设,大量的硬件和各种开源技术的组合,增加了研发的难度、调测部署的周期、运维的复杂度,人力上的投入已是最初的几倍;还有很多技术上的困难也非一朝一夕能够突破,但无论如何大数据平台还是建设起来了,人员能力也在不断成长。大数据平台解决了海量数据、实时数据的计算和存储,也基于原来的企业数据模型实现了重构,但也面临着一系列的问题。
首先是数据的应用问题,无论是数据仓库还是大数据平台,里面包含了接口层数据、存储层数据、轻度汇总层、重度汇总层、模型层数据、报表层数据等等,各种各样的表有成千上万,这些表有的是中间处理过程,有些是一次性的报表,不同表之间的数据一致性和口径也会不同,而且不同的表不同的字段对数据安全要求级别也不同,此外还要考虑多租户的资源安全管理,如何让内部开发者快速获取所需的数据资产目录,如何阅读相关数据的来龙去脉,如何快速的实现开发,这些在大数据平台建设初期没有考虑周全;另外一个问题是对外应用,随着大数据平台的应用建设,每一个对外应用都采用单一的数据库加单一应用建设模式,独立考虑网络安全、数据安全、共享安全,逐渐又走向了烟囱似的开发道路。
数据仓库实现了企业数据模型的构建,大数据平台解决了海量、实时数据的计算和存储问题,数据中台要解决什么呢?数据是如何安全的、快速的、最小权限的、且能够溯源地被探测和快速应用的问题。
数据中台不应该被过度的承载平台的计算、存储、加工任务,而是应该放在解决企业逻辑模型的搭建和存储、数据标准的建立、数据目录的梳理、数据安全的界定、数据资产的开放,知识图谱的构建,通过一系列工具、组织、流程、规范,实现数据前台和后台的连接,突破数据局限,为企业提供更灵活、高效、低成本的数据分析挖掘服务,避免企业为满足具体某部门某种数据分析需求而投放大量高成本、重复性的数据开发成本。
厚平台,大中台,小前台,没有基础厚实笨重的大数据平台,是不可能构建数据能力强大、功能强大的数据中台的。没有大数据中台,要迅速搭建小快灵的小前台也只是理想化的。
我想这才是数据中台的初衷。
后文是对数据仓库、大数据平台、数据中台的一些总结性的架构材料,也是对自己这些年来的一些汇总和思考吧,看懂了前面的文字,后面的各种架构图也就无需赘述了。
1、数据仓库硬件架构
2、数据仓库功能架构
3、数据仓库技术架构
4、第一个Hadoop平台硬件架构
主要是为了解决海量离线数据的计算和存储,在Hadoop集群中实现明细数据、汇总数据存储,在mysql中实现报表数据存储。
5、第一个流式处理平台硬件架构
主要是为了解决海量实时数据的流式采集和计算,在Hadoop集群中实现明细数据、汇总数据存储,在mysql中实现报表数据存储;并通过实时事件处理集群实现流式事件的匹配。
6、大数据平台系统规划
对于大数据平台各种软硬件各种组件的规划
7、大数据平台系统定位
8、大数据平台逻辑部署架构
9、大数据平台功能视图
10、大数据平台数据流向
11、大数据平台对内硬件架构
12、大数据平台整体硬件架构
13、数据中台整体架构
相关文章
猜你喜欢
- Vivado那些事儿:ZYNQ开发基本流程详解与步骤指南 2025-01-10
- 山东高速股份有限公司回复上交所关于收购控股股东资产信息披露问询函的公告 2025-01-10
- 绍兴专业软件定制开发服务,提供高效管理软件与手机App开发解决方案 2025-01-10
- 湖南五年制IT游戏软件开发专业是否有补贴?详细解析 2025-01-10
- 经传软件:专业股票分析工具,助您精准把握投资机会 2025-01-10
- 广东省市场监督管理局2021年11月政府采购意向公告:冷藏冷冻食品质量安全追溯系统升级开发项目 2025-01-10
- 直销系统模式解析及软件开发指南:全面了解直销系统运作与开发流程 2025-01-10
- 天台直销软件开发生产过程详解:从需求分析到上线部署全流程 2025-01-10
- 佛山低空飞跃三部曲:从单打独斗到抱团发展,探索1到N的成长之路 2025-01-10
- 如何撰写app开发项目的财务分析报告:详细步骤与关键要点 2025-01-10