谈谈主动式元数据管理
发布时间:2024-07-24 20:15 浏览次数:次 作者:admin
组织是否需要元数据管理平台?现有的元数据管理平台是否无法满足企业日益增长的需求?如何开展元数据管理?让我们研究一下元数据管理的基本概念。有了这个基础,我们就能了解企业当前面临的挑战以及如何应对。
一、什么是元数据
自1990年以来,我们知道元数据的基本形式意味着“关于数据的数据”。关于企业中的关键数据资产的见解,捕获它们的属性以及以谱系表示的它们的关联。元数据模型不存储实际的行或数据值,例如客户姓名;但是,元数据侧重于数据结构及其保存这些数据值的信息,例如表名及其列。
元数据模型旨在捕获数据资产并启用视图将其显示为元数据目录(通常称为数据目录)。在数据目录的帮助下,组织可以与最终用户共享有关这些数据资产的元数据信息。此外,它还可以防止未经授权的用户查看敏感或机密属性值。这种做法可以在组织中传播对企业数据的深入理解和意识,并遵守数据安全、治理和隐私准则,从而实现“数据素养”。
可用于实施元数据解决方案的元数据管理工具主要管理企业数据环境的以下方面:
元数据模型:定义一个模型来捕获关键数据资产及其属性,以识别所有权和关联。有关关键属性(例如PII个人身份信息或数据对象中的其他敏感数据)的其他用户定义文档/详细信息,以确保正确使用此类数据。元数据模型中的实体可能引用组织中的其他数据模型,比如概念、逻辑或物理模型。这种血缘关系,即它们的起源和消费目标,有助于将模型有机地扩展为企业元数据模型。
元数据过程:元数据模型中定义的数据资产的生命周期、其状态(例如活动或已存档)以及历史信息,例如创建、更新或删除这些数据资产的用户和时间。有关从企业安全终止这些数据资产的归档和数据清除流程的信息。与关键、敏感或机密数据资产的链接,以分析影响、风险或级联终止策略。捕获有关元数据资产的此类信息的元数据管理工具对于组织了解如何尊重地使用和处理数据资产非常重要。
业务术语表:定义策略、术语以及对每个属性在企业环境中的含义的一般理解以及同义词库信息。业务术语表是有用的知识库,可在组织中创建通用语义,以便每个数据用户都能理解并使用业务术语表中定义的通用术语进行协作。
分类法:然后可以使用元数据模型中定义的数据资产的分类法或分类法以层次结构来表示业务术语。它们是简单的表示,例如类或组。分类法有助于理解业务术语及其分类的软关联。
本体:每个术语或分类法都可以使用本体进一步链接到关系模型中。每个层次关系可以具有规则或附加分类信息。本体是知识图谱的最佳表示。
安全与合规性:合规性信息,例如GDPR或个人信息保护法以及映射附加到这些合规性要求的关键数据元素。这有助于数据用户快速做出反应以管理风险暴露并避免不合规。
二、常见的元数据类型
业务元数据:捕获业务功能(例如用于管理数据生命周期的已定义流程)、组织方面(例如角色、协议、所有者)以及语义方面(例如业务规则或定义)。
操作元数据:捕获关键数据质量方面,如指标、分数、维度和KPI,以及任何数据监控规则、警报和通知信息,以报告数据资产的运行状况和质量。
技术元数据:捕获有关数据资产所源自的系统或应用程序、其连接详细信息、支持的协议、技术所有权、联系点、运行时间或停机时间表以及平台信息的信息。
用户定义的元数据:捕获有关数据资产的附加信息,这些信息可用于确定使用情况和所有权。
社交元数据:捕获评论、标签、评级、喜欢、注释和标签以用于协作目的。
三、元数据管理的优点
单一事实来源:规模和数据量快速增长的组织需要元数据管理平台来帮助管理一个位置的所有企业数据资产,作为单一事实来源,以便它随着组织的需求而不断增长。
集中治理:完善的数据资产以及数据资产生命周期、关键数据元素标记和沿袭信息等关键功能的启用,可以帮助负责任的数据治理团队自信地做出数据决策。
可信数据:增值知识库和有关数据资产的更新文档可帮助最终用户花更少的时间查找正确的信息,而将更多的时间用于分析和利用数据驱动价值。
安全性和合规性:需要执行定期合规性审计的组织可以通过在流程中带来可重用性和优化以及端到端可见性和跟踪的功能来满足此类要求。
四、当今元数据管理流程的缺点
随着组织开始在分析方面取得进步,元数据管理流程现在变得被动且不足。他们只需通过并购获取新资源,就具备了扩展数据科学和机器学习模型的能力。
此外,随着NoSQL、矢量或图形数据库等替代技术的快速出现,随着数据资产开始在本地和云中增长,元数据变得更加动态和多样化。简而言之,它正在遍布整个生态系统,而不是传统的关系数据库和数据模型。它现在不仅仅存在于传统数据库中,还存在于更多技术中,例如应用程序、数据集成工具、MDM工具、云服务、基础设施等。
元数据元素及其沿袭的陈旧性质无法捕获整体企业视图元数据,不足以实现数据驱动的业务成果。
大多数传统的元数据管理工具都采用孤立的方法来编目数据,这种方法的共享功能有限,将元数据上下文限制为本地或域元数据而不是企业元数据。
因此,元数据管理流程需要超越无法在整个企业生态系统中广泛共享的陈旧文档系统。
五、从被动元数据管理转变为主动元数据管理
主动元数据通过在整个企业环境中收集元数据来提升元数据的上下文。这是通过收集的不仅仅是技术元数据来完成的,还包括来自提供商和消费者的元数据的操作、业务和社会方面。此外,它还从提供数据可访问性并执行数据转换的层获取这些信息。
通过扩展被动元数据模型的企业范围元数据视图,主动元数据的概念可以帮助消除数据孤岛。当团队在其孤立的边界内工作或了解其他数据资产时,就会出现数据孤岛。这是组织中数据问题的主要原因。
随着新资产的发现或获取,主动元数据的功能有助于元数据模型的持续增长。这有助于改进数据分析,以了解以前未探索的数据。此外,它还可以根据执行结果获取规范性建议,并且可以报告持续的健康评分分析、KPI或实现的结果。
主动元数据正处于数据支持技术发展的转型阶段。
对主动元数据的需求是确保增强的数据管理能力,以始终自动化和优化数据。
六、开展主动元数据的挑战
根据整个组织对其元数据管理的成熟度,挑战可能会有所不同。然而,假设组织拥有符合上述被动概念的元数据管理平台,则此类组织可能会遇到以下挑战。
分散的元数据:元数据分散在组织中的各个地方。由于对这些边界之外的特定领域知识的了解有限,因此很难理解元数据信息在本地或域边界内的存储方式。
互操作性:缺乏通用的元数据标准,这使得元数据共享和互操作性成为市场上多种元数据管理解决方案的主要挑战。由于组织中的孤岛,也会出现此类互操作性问题。
可访问性:数据库、数据集成、数据质量和数据治理工具等数据管理平台不断增强其访问和管理数据的能力。大多数数据管理解决方案中嵌入的元数据功能无法为业务用户提供自助服务门户来访问元数据以从任何平台分析所有类型的元数据类别。
克服挑战的主要目标
以下是开始构建现有元数据管理平台成熟度以实现主动元数据概念的基本要素。
统一模型:关键是从元数据模型的企业范围视图的定义开始。能够扩展现有被动元数据模型的组织可以有机地成长为跨所有工具、技术和实践的企业模型。请注意,此处参考的是概念模型,而不是逻辑或物理模型。重点更多地是确定以下内容:
跨平台数据属性对于组织至关重要,因此需要在可供组织中的所有最终用户使用的中央元数据位置对它们进行建模。不太重要的数据属性可以保留在当前状态架构中,并在需要时通过本地元数据存储库进行共享或访问。元数据共享是主动元数据支持的关键和推荐方法。各种架构模式可以进一步提供实现这些功能的深入见解;然而,这些架构模式是未来文章中讨论的范围。
一旦企业元数据模型开始形成,重点就可以是关联谱系。谱系有两种类型——水平世系和垂直世系。源系统或数据提供者和目标系统或数据消费者代表水平谱系,而一个数据资产与另一个数据资产的关联定义垂直谱系。这两种类型的谱系都可以通过图优化数据库或知识图来很好地表示。
其他关键重点领域是定义管理数据生命周期及其依赖关系的流程,以持续管理沿袭。有多种方法可以自动执行此操作,以便数据资产的更改由系统驱动,并通过工作流程来批准这些更改作为连续元数据收集步骤的一部分。
最后,为了完成此练习,定义与数据相关的模式、结构或模型的所有权以理解和建模这些结构的端到端治理流程非常重要。每个数据团队都对其数据域承担联合责任,通过路线图推动域内的变化。它有助于清晰和职责分离,并消除导致将每个数据域视为“数据产品”以构建高级数据实践或“数据网格”架构的数据孤岛。
元数据集成:
这也是确保元数据模型的互操作性的关键,元数据模型可以作为元数据信息的可信来源在企业范围内使用。众所周知的集成模式适用于集成元数据信息。元数据可以通过消息传递或流式传输的推送机制提供。还可以通过调用元数据层托管的RESTAPI按需拉取它。该层托管必须可供目标系统使用的关键信息;业务或用户定义的元数据、标记为共享的技术元数据、业务词汇表或业务术语以及社交方面(例如元数据源评级或基于可用标签搜索元数据)形式的信息。
自助服务元数据:
以上两点对于元数据管理平台的设计和实现具有重要意义;然而,重点是让最终用户可以使用该平台来消费元数据,这是元数据使用和采用的关键。
很大一部分元数据管理工具或现有元数据管理实现无法启用自助元数据功能。如果元数据平台不易于使用,组织就会在采用方面遇到困难,因此此类投资的投资回报率无法合理化。
为了确保元数据管理层在企业中得到最大程度的采用,需要考虑一些因素。启用这些功能是关键,但何时或如何启用它们的决定可能取决于组织实践的成熟度。以下是其他功能注意事项。
具有主动元数据功能的元数据层是企业范围元数据的统一视图。数据分析师、数据管理员和整个企业的各种数据从业者将日复一日地利用这个工具。使其成为一个自助服务门户,可以更轻松地实现以下目标:
查找、搜索数据目录、业务术语表、术语、
通过标签、评级和协作评论等社交方面与数据进行交互,
做出与数据安全性和合规性相关的重大决策识别数据风险、影响和缓解决策。
另一个关键方面是数据的自助服务配置。元数据层通过治理流程启用。这是识别新需求并根据需要提供新数据视图和目录以解决新业务需求并将其发布以供企业使用的重要来源。
采用自助服务功能不仅可以将所有数据参与者聚集在一起在统一平台上进行协作,而且可以实现共同的理解和语义,这将为“DataOps”等高级数据实践提供机会,并确保数据民主化的概念。
七、开展主动元数据管理的建议
随着组织继续投资数据管理平台,确保以下功能成为平台路线图的持续关注点至关重要:
元数据共享:相邻的数据管理工具必须能够与元数据管理工具共享内部元数据信息,以进行更广泛的端到端元数据分析和编排。建议选择允许元数据共享且可以轻松与元数据平台集成的数据管理工具。
运行时元数据:组织投资于用户体验分析,以获取捕获用户和数据交互以及整体数据使用模式的能力。需要这样的模式来持续分析哪些数据资产是首选及其原因。这是数据挖掘中众所周知的“数据亲和力”概念,可以通过自动化和用户体验分析来实现,从而进一步挖掘元数据的价值。
可观察性:元数据管理工具的关键功能是提供本机支持或与数据可观察性工具轻松集成,以创建有关数据操作方面的规范性建议和见解。
元数据导入/导出:除了元数据共享之外,还可能需要在整个企业中导出和导入元数据。元数据管理工具应该能够收集、处理和优化此类元数据,而无需执行大量转换。这些通用功能有助于互操作性并实现标准元数据方法。
元数据分析和治理:元数据及其对象的更改是不可避免的。这些变化可以在元数据工具中确定,或者通过相邻的数据管理工具隐式请求。无论哪种方式,都应该有一个自动触发器,通过元数据治理/工作流模型来编写、审查和批准这些更改。分析此类变化及其影响和风险将是理解和减轻下游影响的自然下一步。根据建议建立数据团队,共同负责定义其“数据产品”路线图,元数据的治理将得以实现。
八 、小结
元数据管理是几乎所有数据支持技术和元数据分析、增强和自动化设计实践中的一项重要功能,甚至数据管理平台的部署也将继续成为数据驱动型业务的一个关键方面。
Gartner的分析表明,这是一个增长较快的软件市场,过去2年增长率和采用率最高,达21.6%,达到近20亿美元。
具有被动元数据管理功能的元数据管理工具将继续推动数据支持组织的实施,这些组织要么从元数据之旅开始,要么处于较低的元数据成熟度曲线。
然而,对主动元数据流程和技术的需求将继续发展。所讨论的主动元数据管理功能将是在已建立的元数据管理工具中实施的自然下一步。
主动元数据管理概念将继续存在,并将在未来几年通过“DataFabric”架构实施的采用而加速发展。
(部分内容来源网络,如有侵权请联系删除)