当前位置:主页 > 行业资讯 > 数据治理 >

数据治理:如何提高数据质量?

发布时间:2024-07-26 21:01   浏览次数:次   作者:admin
数据治理可以说是数据产品的生命线,如果数据不准给业务带来错误的决策引导,可能会带来难以预计的业务损失。
一、数据质量问题产生的原因
 
二、如何提高数据质量?
 
数据质量问题无法完全根治或杜绝,所以要想提升数据质量,最重要的就是“早发现,早恢复”。要做到这一点就需要依赖完善的数据质量监控能力,在数据生产加工的全链路过程中,添加质量稽核规则。例如对产出表按照业务规则,设计一些校验逻辑,确保数据的完整性、一致性和准确性。
 
 
 
在数据产出任务运行结束后,启动稽核校验任务对数据结果进行扫描计算,判断数据结果是否符合规则预期。如果不符合,就根据提前设定的强弱规则,触发不同的处理流程。如果是强规则,就立即终止任务加工链路,后续的任务不会执行,并且立即发出电话报警, 甚至关键任务还要开启循环电话报警,直到故障被认领;如果是弱规则,任务会继续执行。但是存在风险,这些风险会通过邮件或者短信的方式,通知到数据开发,由人来进一步判断风险严重程度。
 
 
 
早发现,是要能够先于数据使用方发现数据的问题,尽可能在出现问题的源头发现问题,这样就为“早恢复”争取到了大量的时间。早恢复,就是要缩短故障恢复的时间,降低故障对数据产出的影响。图5 稽核校验执行流程图 那具体要加哪些稽核规则呢?
 
 
 
三、数据治理监控的常用规则
 
完整性规则。主要目的是确保数据记录是完整的,不丢失。常见的稽核规则有表数据量的绝对值监控和波动率的监控(比如表波动超20%,就认为是异常)。还有主键唯一性的监控,它是判断数据是否有重复记录的监控规则,比较基础。除了表级别的监控, 还有字段级别的监控(比如字段为 0、为 NULL 的记录)。
 
一致性规则。主要解决相关数据在不同模型中一致性的问题。商品购买率是通过商品购 买用户数除以商品访问 uv 计算而来的,如果在不同的模型中,商品购买用户数是 1W、 商品访问 uv10W,商品购买率 20%,那这三个指标就存在不一致。
 
准确性规则。主要解决数据记录正确性的问题。常见的稽核规则有,一个商品只能归属在一个类目,数据格式是不是正确的 IP 格式,订单的下单日期是还没有发生的日期等等。
 
 
 
四、数据治理的衡量指标
 
管理学大师彼得德鲁克说过如果你无法衡量,你就无法提升。做数据治理,也需要有衡量标准,促进不断改善。那么如何评价数据质量是否有改进呢?除了故障次数,你还可以有这样几个指标。
 
4 点半前数据中台核心任务产出完成率。这个指标是一个综合性指标,如果任务异常, 任务延迟,强稽核规则失败,都会导致任务无法在规定时间前产出。
 
基于稽核规则,计算表级别的质量分数。根据表上稽核规则的通过情况,为每个表建立质量分数,对于分数低的表,表负责人要承担改进责任。
 
需要立即介入的报警次数,通常以开启循环报警的电话报警次数为准。对于核心任务, 任务异常会触发循环电话报警,接到报警的数据开发需要立即介入。
 
数据产品 SLA。每个数据产品上所有指标有没有在 9 点产出,如果没有,开始计算不可 用时间,整体可以按照不同数据产品的重要性进行折算,99.8% 是数据产品一个相对比 较好的 SLA。
 
(部分内容来源网络,如有侵权请联系删除)