当前位置:主页 > 行业资讯 > 主数据管理 >

什么是主动元数据管理?有何优势?

发布时间:2023-10-21 18:46   浏览次数:次   作者:admin

元数据是描述数据的数据,它提供数据的来源、含义、位置、所有权和创建等信息,主要用于跟踪、分类和分析。


元数据管理则是对元数据的创建、存储、整合、控制的一整套流程,是数据治理过程的一部分,能够支持基于元数据的相关需求和应用,让开发和业务人员快速的了解数据的上下游关系及本身的含义,精准定位需要查找的数据,减少数据研究的时间成本,提高效率。

尽管企业越来越意识到元数据管理的重要性,但是在实际的数据治理中,元数据管理技术和方法仍面临着很多挑战:局部的元数据管理限制着企业数据资产的共享或重用;手动的元数据管理和维护烦琐且错误率高,使得项目的成本提高,交付的周期变长;数据环境日趋复杂,传统元数据管理方式难以胜任……

针对传统元数据管理的痛点问题,主动元数据管理方法应运而生。

— 01 —什么是主动元数据管理?
主动元数据的概念是由Gartner提出。早在2006年,Gartner的一份关于数据服务的前瞻市场分析报告中就出现了主动元数据管理一词。2017年,Gartner在其《元数据管理解决方案魔力象限》中提出元数据市场”已出现二分为‘主动’与‘被动’两条技术路径的早期迹象“ 。2019年Gartner在《数据管理技术成熟度曲线报告》中将主动元数据管理与“数据编织”这一新引进的技术点紧密关联,并于2021年的成熟度曲线报告中正式引入了主动元数据技术点,主动元数据管理开始进入Gartner的“炒作序列”。

但无论在无论在《主动元数据管理市场指南》还是在《数据管理技术成熟度曲线报告》中,Gartner定义的都是”主动元数据管理“(Active Metadata Management)而非“主动元数据”。即元数据还是那个元数据,但针对元数据的管理方法和理念有了更新。

附Gartner定义:主动元数据管理是对用户、数据管理、系统、基础设施以及数据治理过程的持续分析,以确定数据在设计与实际运行之间的一致性和异常情况。 (the continuous analysis of user, data management, systems, infrastructure and data governance experience to determine the alignment and exceptions between data as designed versus operational experience)

— 02 —主动元数据管理和传统元数据管理区别
主动元数据是相对过去的被动元数据而言,针对二者的区别,Atlan公司进行了区分,即:被动元数据是提供基本数据定义的技术元数据,例如模式、数据类型、模型、所有者名称等;而主动元数据是一种描述性元数据,通过提供数据发生的所有事情的详细信息来为数据添加上下文,除了技术元数据之外,它还包括运行、业务和社交元数据。

具体来看,主动元数据管理强调人工干预和有意识的信息添加,以促进数据的更好理解和管理。而被动元数据管理更依赖于自动化,通过系统和工具生成,提供有关数据处理历史和存储信息的洞察。主动元数据管理与被动元数据管理的区别主要体现在三个方面:

1、 被动元数据是在数据被处理、存储或传输时由系统或工具自动生成收集,而主动元数据管理强调对元数据做持续的分析和理解,不仅需要理解库表列schema等常规信息,更要理解这份数据背后的语义和它的加工口径、业务主体、汇总粒度以及如何正确使用等。

2、主动元数据能够更加面向行动、面向治理来解决实际的业务问题,主动元数据不再是等用户碰到数据使用问题时去到一个数据目录上去找它,而是给出一个设计建议或者一个可被系统执行的指令。

3、主动元数据管理更强调工具无缝集成,在数据生产、消费和协作的各个环节为用户提供完整的元数据上下文以及智能建议,以实施更主动的数据管理策略。

— 03 —主动元数据管理的关键点
简而言之,我们可以将主动元数据管理理解为一种更动态、与业务更紧密相关、并能直接用于数据流转甚至数据架构的自动化调整等场景的元数据管理模式。主动元数据管理平台,应具备以下2个关键特征。

1.智能化与自动化
元数据的智能化即利用机器学习和知识图谱等底层人工智能技术,完成数据侧写、自动分类、自动口径提取、内容智能解析、使用状况分析,以及面向业务语义的智能发现和推荐、异常探测等功能,当然还包括利用脚本编写、组件嵌入实现的自动化和协同化功能,这些一起达成更“主动”的元数据管理,最终指向智能的数据的供需满足,以及系统、业务之间的互通。

智能化的元数据管理可以影响数据全生命周期的各个方面。比如可以通过解析SQL查询日志,自动创建列级别血缘;可以自动识别PII(个人识别信息)数据以保护个人信息,保障数据隐私与安全;可以通过自动检测数据异常值和异常,捕捉不良数据,提高数据质量。