当前位置:主页 > 行业资讯 > 数据治理 >

数据架构治理实践

发布时间:2024-06-17 20:28   浏览次数:次   作者:admin
一、背景
 
为什么要做数据架构治理?数字转型,治理先行。
 
数字化的应用是整个行业高速发展的源动力之一,快递行业日新月异,规模庞大,数字化能够使管理升级,提高整个内部的运营效率,降低相关的运营成本。在打破数据孤岛,链接用户跟快递员、网点、商家等角色的过程中,数字化都发挥着很大的作用。简单来说,数字化就是一道门,你被关在门外面,那未来很可能就会被淘汰。而数据架构治理,就是为中通数字化转型打下了基础。
 
 
二、现状
 
1、数据标准
中通目前有500+的产品,这些持久化在存储上就是有100W+的数据库表。并且业务量以每年20%-30%的速度高速增长。各业务部门、开发团队的数据标准不一致,在数据打通和整合过程中会出现很多问题。所以就必须建立数据标准和推动数据模型的落地来对数据未来状态的规范,包括对数据的名称、含义、结构、取值及数据间关系的规范,以此对数据库表结构、字段定义进行指导约束。
 
 
2、数据安全
 
公司目前没有平台来做数据分类、敏感数据的标记,数据以什么形式对外提供出去不明确 ,什么数据可以对外暴露不明确 。一旦隐私数据泄露,对业务的影响非常大,甚至能影响整个业务的生死。同时对数据文件、图片、文件、音视频等类型数据的定期的备份恢复策略也没有制定,一旦误删除可能会导致数据的永久丢失。
 
 
3、数据模型
 
由于前期的快速发展,难免会遗留一下历史的原因,比如数据的上下游依赖公司就很难去识别到,随着业务的变动很容易出现上游发生变更,但下游却不知道的问题。开发的数据对象,都是通过口口相传。模型梳理难以完成,导致在数据开发和数据管理过程中都会遇到一些效率低的问题,开发不清楚数据的上下游是如何使用的。
 
 
 
4、数据质量
 
缺乏跨团队的数据工程流程,经常会导致“挂羊头卖狗肉”的情况,比如字段明明是网点名称,数据库里却是网点名称和网点编号都有存储在这一列,导致各个团队的成熟度不同,团队间没有一致的数据质量定义或指标。
 
 
 
三、怎么做数据架构治理
 
1、传统的数据治理是怎么做的
顶层规划设计的方法在五到十年前比较盛行,多源于国外咨询公司基于国际理论(如DAMA-DMBOK)结合自身实践积累形成的方法论,用这些理论框架为企业进行全面的现状调研,基于此再进行数据治理组织、数据治理工作内容/流程/制度、数据治理平台及未来建设路径的规划。其交付物通常是厚厚的调研报告、设计报告和PPT,项目周期在半年甚至更长。顶层规划设计的方法好处在于有理论依据,体系完整,能够帮助客户达成对数据治理全貌的理解和共识,有利于推动后续工作开展。但其也有许多不足,如过于理论化与企业实际情况结合不紧,导致管理组织和流程都无法落地;漫长的项目周期中,只部分解决了数据治理管理能力建设的问题,但并未解决实际数据问题、没有提升数据质量甚至业务质量、数据价值也没有显著发挥出来。因此,成果也看起来很厚重,但实效并不大。
 
 
 
 
2、我们是怎么做的
 
从一开始我们也想过自上而下的这样推动数据治理,但是就如上面所述,项目周期太长,同时实际效果也不一定很好。因此我们结合我们公司的实际情况,先治理关键流程:数据标准管理、数据模型管理、数据上下游链路管理、敏感数据管理以及数据的全生命周期管理。同时连同业务部门,按照产品线进行划分,小范围内快速验证和迭代数据治理相关的方法、流程、规范,然后再复制推广。总体的思路就是:定规范,建平台,建体系。
 
 
 
四、规范
 
结合公司的现状,我们对数据的全生命流程进行梳理,针对关键节点我们梳理出了:数据存储选型规范、数据建模管理规范、数据分发管理规范、数据生命周期管理规范。
 
 
 
1、数据存储选型规范
 
架构师在工作中经常会遇到数据库存储选型的问题,而市面上数据库产品众多,往往会无从下手,甚至有时候从业务开发到上线运维过程中会多次更换底层数据库,给整个研发中心带来不必要的额外工作,数据存储选型对于一个给定的应用环境,针对公司现有业务背景和整个DBA团队技术储备,选取最优的数据库类型,建立数据库及其应用系统,使之能够有效地存储数据,满足各种用户的应用需求。
 
 
 
2、数据建模管理规范
 
针对数据的开发设计阶段,我们将数据对象抽象成逻辑模型和物理模型,同时针对表、字段、数据库的命名和设计制定了一系列的规范并前置到逻辑模型设计阶段,同时针对持久化到数据库上进行流程管控。
 
 
3、数据分发管理规范
 
对于现在公司的数据实际情况,数据分发应该严格按照分发数据量进行分发类型选择,并且除了SQL查询方式之外,都应使用中通数据分发平台ZDTP进行数据分发,并且通过订阅方式对数据下发至各个合规终端,同时通过可配置的软件或工具对源数据进行收集、处理以达到符合中通内部或合规的外部第三方生产需求的操作,以上所有的操作均有流程进行管控。
 
 
 
4、数据生命周期管理规范
 
结合公司实际,针对科技中心所管辖的所有数据,文件,图片,视频,录音等存储。将数据进行分级分类,按照对应的级别的不同制定不同的生命周期管理策略。
 
 
 
数据敏感级别属于数据安全领域,敏感等级不同的数据对内使用时受到的保护策略不同,对外共享开放的程度也不同。数据管理者负责制定其领域内数据敏感等级的划分规则,并制定和发布本部门的数据敏感等级目录。
 
 
 
数据分类治理是实现不同部门之间数据共享互认的目的。我们通过分类标识,将分散的、存储在不同系统的数据内容,打破数据的孤岛,进行有效匹配,指定不同的数据敏感级别,理清各方的数据权限,达到数据安全治理的目的。
 
 
 
(部分内容来源网络,如有侵权请联系删除)