传统数据治理体系及框架
在数字化转型中,战略驱动是根本,数据治理是基础,数据智能是方向。数据治理就是从组织、管理、技术的角度持续改变数据使用行为的过程,贯穿整个数据生命周期。数据治理的根本目标是确保数据安全,提升数据价值。
同时,数据治理更是一个体系,其关注于信息系统的执行层面,以整合信息科技部门与业务部门的知识和意见为目的,通过数据治理组织对企业的信息化建设进行全方位的监管,从而迭代数据资产价值,赋能业务发展,达成业务战略,保障数据安全,降低隐私泄露的风险。
数据治理体系涉及企业的组织、管理、技术等多个层面,和业务部门关系紧密。通常,企业的数据治理工作都是由业务部门牵头,IT部门辅助执行。
图1 数据治理体系架构图
如上图所示,数据治理体系分为三个层级,分别是数据治理对象、数据治理任务和数据治理支撑。
数据治理的对象围绕主题进行划分,不同企业的数据主题不尽相同,与企业自身组织和部门设置密切相关,这里不再展开描述。
数据治理支撑包括企业的组织架构、在数据治理过程中的角色、企业内部基于数据治理相关的制度与流程以及IT 技术架构与平台。
数据治理任务,主要包含主数据管理、数据标准管理、数据质量管理、数据资产管理、数据安全管理、数据生命周期等。其中,主数据管理、元数据管理和数据质量管理是重点所在。
主数据管理
主数据是指描述核心业务实体的数据,如客户、产品、员工、账户等,具有高业务价值的、可在跨越各个业务部门被重复使用的数据,并且存在于多个异构的应用系统中。
主数据管理将从企业多个业务系统中整合最核心、最需要共享的数据(即主数据)集中进行清洗和丰富,并以服务的方式把主数据分发给企业范围内的操作型和分析型应用。
主数据管理的目的是为了保证在跨系统和跨平台使用数据的时候,主数据能够保持一致。
数据质量管理
数据质量管理体系包括数据质量的判断以及所有对数据质量起到保证提升作用的活动、流程,力求实现全方位数据质量管理。
其中,数据质量优化提升是面向存量数据,按业务系统或者主题分批对数据进行分析、清洗,提高既有数据质量的数据质量管理活动。
数据质量管理的管控,首先需要企业内部制订相关的规章制度,并将数据按照不同的主题域指定相应的归口部门,确保数据质量是的持续提升。
图2 数据质量问题归因溯源
通过上方的鱼骨图可以看出,数据质量问题产生的原因有很多,其中人员、流程、业务系统前段录入属于原生数据质量问题;业务系统后端数据库设计、数据抽取、数据加载等属于次生数据质量问题。
针对原生数据质量问题,可以通过提高录入的自动化和易用性等手段,降低前端输入时出错的机率。
对于次生数据质量问题,通过在数据流转过程中加入一些埋点校验,进行数据比对,避免数据出错。
元数据管理
元数据用来描述数据的数据,相当于书籍的目录,是数据的解释说明信息,使数据的使用者可以了解数据的特征、内容、作用,以及获取方式等信息,并对数据是否能满足使用需求做出适当的评价。
在数据治理体系中,元数据可分为业务元数据、技术元数据、操作元数据和管理元数据四种类型。
元数据管理分为采集、管理、分类、服务四个层面,涉及标准制订、补充维护、管理分类、血缘分析、查询统计等诸多环节。
对于大型企业,元数据的规模比较庞大,要实现元数据管理需要投入大量的人力和时间,工程周期往往以年为单位。
此外,企业数据治理还涉及数据标准、数据安全、数据生命周期等,这里不再展开赘述。感兴趣的朋友,可点击文章左下角“阅读原文”观看直播视频回放。
数据治理面临的难题
随着新技术的不断涌现和数据量的极速增长,传统数据治理体系在实施时面临着以下挑战:
元数据管理成本高:业务元数据的实施需要业务人员的介入与识别,每个数据平台都要录入,数据流转的操作元数据也需要进行录入,导致记录成本高。
数据质量难以保障:数据在平台间流转的过程中会产生次生数据质量问题,需要进行大量的埋点校验工作。
数据标准落标复杂:每个数据平台都要进行数据标准的检查,跨平台的数据标准一致性难以保障。
数据同步策略复杂:主数据平台必须向多个数据平台同步主数据,需要复杂的同步策略,否则可能面临主数据的版本不一致问题。
敏感数据难以集中治理:需要定期对每个数据平台的敏感数据进行识别,数据跨平台流转还需要加密解密,维护困难。
数据服务响应周期长:数据服务要经过多个数据平台进行加工和etl,拉长了数据服务的响应时间。