数据入表后,如何进行数据治理?
发布时间:2023-12-26 17:50 浏览次数:次 作者:admin
随着数据资源的爆炸性增长,企业面临着数据标准不统一、数据信息分散、数据质量参差不齐、开发维护困难等问题,很难满足实时分析和决策的高要求。因此,数据治理对于工业互联网的发展至关重要。
数据治理发展现状
1.1 数据治理的相关概念
数据治理是组织中对数据使用和管护的管理行为,其本质是指导、评估和监督数据的管理和利用,通过制定数据标准体系,提高数据的质量,并为组织提供不断创新的数据服务,以提高数据的价值密度。
数据治理内容主要包括元数据管理、主数据管理、数据标准管理、数据质量管理、数据生命周期管理、数据组织、数据安全和数据服务等模块,不同模块功能明确、相互协同,共同打造统一调度、精准服务、安全可用的信息共享服务体系。
1.2 数据治理的发展历史
数据治理的发展历史可分为三个阶段。
第一阶段为早期探索阶段,1988年麻省理工学院启动的全面数据质量管理计划形成了数据治理的雏形。同年,国际数据管理组织协会(DAMA)成立。2002年,数据治理概念在学术界崭露头角,美国两位学者结合两家公司的实践结果提出数据治理研究方向,由此拉开了数据治理在企业管理中的大幕。
第二阶段为理论研究阶段,2003年国际数据治理研究所成立,主要研究数据治理理论框架,与国际标准化组织合作对数据治理进行定义。2009年,DAMA发布数据管理知识体系指南,基本确定数据治理的理论框架。
第三阶段为广泛接受与应用阶段,随着数据仓库的建设,国内也逐步开始接受数据治理的理念,并在2015年提出了《数据治理白皮书》国际标准研究报告。
2020以来,数据治理在公共管理、科学研究与工商业等领域得到广泛应用,以数据为核心的“互联网+”体系日益彰显数据治理的价值,为进一步推动数据治理的发展,美国、欧盟纷纷颁布围绕数据使用与保护的公共政策。
我国也相继出台了《中国制造2025》《关于深化“互联网+先进制造业”发展工业互联网的指导意见》等相关政策以促进工业互联网发展,进一步体现了工业数据治理的必要性。
1.3 工业数据治理探索
工业生产制造主要包括设备故障预警、异常实时告警、异常回溯、产品稳定性和生产效率优化等业务场景。随着智能制造、工业互联网等战略政策的深入推进,工业企业积累了大量的数据,为不同业务场景下的数据分析提供高质量的数据接口,使得开展工业数据治理成为核心问题。本文将以工业数据为核心,以数据治理为方法,以业务应用为目的,构建面向工业生产制造的数据治理体系,并通过案例实践验证数据治理的成效。
02工业数据治理体系
2.1 工业数据态势
2.1.1 工业数据来源
工业数据可划分为操作技术数据(OT)和信息技术数据(IT)。OT数据是工业数据的主要部分,源自工业生产机器设备、自动化采集系统等,包含时序数据和非时序数据。时序数据包括温度、压力、流量等数据。
非时序数据包括工业系统的日志数据以及生产调控的经验数据。IT数据主要包括企业资源计划(ERP)、制造执行系统(MES)等业务数据。其中ERP系统主要包括财务、客户关系、供应链管理等数据,MES系统位于上层ERP层与底层控制层之间,主要包括生产调度、质量管理、人员管理等数据。
2.1.2 工业数据特点
“隔离性”。工业数据来自多道工序的多台设备,设备独立工作以及工序间数据互不流通,形成一座座“数据孤岛”。
“多模态”。工业数据来源多样,结构复杂。除工业生产中所采集的温度、压力、流量等时序数据之外,还包括检测火焰温度等的红外热成像视频数据。
“强关联”。工业数据中的关联主要包括:生产指标间的关联,如原料燃料流量、温度、压力的关联;生产过程的关联,如生产工序间的工艺参数关联关系;产品设计制造等环节之间的关联,如仿真过程与产品实际工况间的关联。
“高通量”。传感器所采集的时序数据具有设备多、测点多、频率高、吞吐量大、连续不间断的特点。以某工业生产设备为例,数据采样频率为10Hz,单台设备每秒产生16KB的传感器数据,按20台设备全量采集计算,每日将产生约12.87GB的数据,每年将产生4.58TB的数据,呈现出“高通量”的特征。
数据带来巨大的存储成本,还存在衔接不连贯、标准不统一、数据不对齐、“脏”数据等质量问题,无法为数据分析提供有效接口,如何提升数据价值密度、提高数据挖掘效率是现阶段亟待解决的问题。
2.2 工业数据治理体系研究
2.2.1 顶层框架设计
数据治理是工业数字化转型之路的关键,数据治理工作的落地有助于提升数据价值密度、提高数据挖掘效率,更好服务灵活多变的业务场景,为数据分析提供有效接口。目前,数据治理体系的研究相当成熟,可适应于不同的应用场景。本文在借鉴通用数据治理体系的基础上,结合工业数据的数据源、数据特点及业务场景等核心要素,搭建面向工业生产的数据治理体系,如图1所示。
图 1 数据治理体系框架
为保证数据资产不流失,对源数据和分析数据进行物理隔离,源数据按照原始格式保留存储在本地服务器中,分析数据则经过数据治理后进行存储,对非必要数据进行归档或销毁。该数据治理体系框架囊括元数据管理、主数据管理、数据标准管理、数据质量管理、数据生命周期管理、数据组织、数据安全及数据服务环节,环节间相互协同和依赖,形成全方位、多层次、多角度的数据治理框架。
2.2.2 元数据管理
元数据的定义是“关于数据的数据”,元数据反映了数据的交易、事件、对象和关系等。通过元数据管理可绘制数据地图、统一数据口径、标明数据方位、分析数据关系以及精确到字段级别的影响分析,方便数据的跟踪和回溯。
图 2 工业元数据管理
在工业领域中,元数据主要包括技术元数据和业务元数据,如图2所示。
其中技术元数据具体为:物理资源的元数据(服务器、操作系统等)、数据源元数据(网关地址等)、存储元数据(指标说明、数据结构、存储属性、管理属性等)、共享元数据(接口方式、格式等)等方面。
业务元数据具体为:模型元数据(特征工程、评估标准等)、分析元数据(业务流程、业务规则等)方面。基于工业元数据管理,可构建元模型进行元数据自动化采集,实现企业信息化资产梳理、数据地图、数据血缘分析等功能。
2.2.3 主数据管理
主数据是指满足跨部门、跨业务协同需要的系统共享数据,在各个业务部门中被重复使用,如客户、供应商、资产、产品、物料单、账户等数据。工业主数据管理流程由业务治理、标准治理、质量治理组成,如图3所示。
图3工业主数据管理
在工业制造领域中,主数据结合物联网数据可以实现不同的业务场景需求。例如,若要了解或预测物料的库存情况以提高生产调度效率,可将原料消耗的传感器数据与物料单主数据进行关联分析,从而感知到物料的库存情况。因此,通过将高价值、高共享、相对稳定的主数据与物联网数据相关联,结合机器学习、深度学习等算法,可实时评估企业的生产运营情况以做针对性的调整。
2.2.4 数据标准管理
数据标准管理的目标是设计一套标准体系,包括数据质量标准、数据操作标准、数据应用标准,形成一个可流通、可共享的信息平台。数据标准主要由业务定义、技术定义和管理信息三部分构成,业务定义包括业务、名称和接口等方面的定义,技术定义包括数据类型、数据结构等方面的定义,管理信息包括所有者、管理人员等方面的定义,如图4所示。
图4 工业数据标准管理
在工业制造领域中,大数据标准一般以业界的标准为基础,如元数据管理标准(ISO-11179,CWM,DCMI)、数据质量标准(ISO-8000,ISO-25012)以及数据安全标准(ISO-27001),结合工业数据的特点对数据进行规范化,一般会包括数据格式、数据质量、数据语义、编码规则、字典值等内容,减少数据孤岛、流转不畅、应用繁琐等问题的发生。
2.2.5数据质量管理
数据质量管理是工业数据治理的关键,是数据应用的前提,为企业风险把控、分析决策、生产运营提供更精准的高质量数据,提升工业数据分析的效率。工业数据质量管理如图5所示。
图5 工业数据质量管理
传统的质量评估体系过于繁杂,结合工业数据和业务场景,基于完整性、准确性、规范性、唯一性、一致性、关联性、可追溯性等构建合理的数据质量评估体系,并根据工业实际生产情况,对质量评估体系细化:
(1)生产控制数据:生产控制指标若出现不完整、不一致等问题,或导致异常调控不及时等情况发生。因此,对生产控制指标的数据质量管理提高优先级,保障生产流程的正常运转。
(2)传感器数据:传感器数据监测生产过程中的运作情况,可实时感知生产异常,并及时优化调整。因此,要提高传感器数据接入的及时性、一致性。
(3)故障记录数据:为保证生产设备的稳定运转,需要对设备故障记录进行分析诊断,因此需要保证设备故障记录数据的可靠性和可追溯性。
(4)库存物流数据:库存物流管理是生产、计划和控制的基础。通过保证库存物流数据的及时性和完整性,能够优化生产周期,保证生产的良性循环。
2.2.6 数据生命周期管理
采用科学的数据生命周期管理能够提高系统运行效率,大幅减少数据储存成本,更好服务客户需求。数据生命周期包含在线阶段、归档阶段、销毁阶段三大阶段,如图6所示。
图6 工业数据生命周期管理
本文对工业领域的各应用系统数据进行提炼和分类,在数据生命周期的各个阶段制定有效的管理策略。首先,将光工业应用系统按产品线进行划分,确定数据类别,规定数据有效期,从而建立完整的数据有效期管理工作规范体系。
然后,针对长有效期数据,在有效期结束后采用低成本存储介质保存,采用在线和离线的方式逐步归档数据。最后,销毁冗余数据,节约数据存储资源。可以看出,数据生命周期管理能够大幅提升高价值数据的查询效率,同时减少高价格的存储介质的采购成本。
2.2.7 数据组织
数据组织的目的是根据数据应用需求,采用标准统一、流程规范的方案分类构建数据资源库,进一步强化大数据内部关联。数据组织主要包括原始库、知识库、主题库等。
(1)原始库:原始库保存原始业务场景数据。工业原始数据主要包括设备监测数据、生产流程记录、产品检验数据、生产异常数据及生产运营数据等。
(2)知识库:知识库指工业领域的业务经验数据和规则方法集合,包括数据接入、处理、服务以及工业通用模型所涉及的知识性数据和规则方法。工业知识库主要包括原料特性、设备参数、产品设计、生产原理、行业动态等。
(3)主题库:主题库对原始数据和资源数据根据分析和服务的目的进行划分,形成不同主题的数据集合。工业数据主题库主要包括人员主题库、设备主题库、原料主题库、生产方法库、生产环境库等。
2.2.8数据安全
工业生产中的重要且敏感数据大部分集中在应用系统中,例如原料配方、控制策略等工艺参数数据,以及客户信息、生产计划、资产信息等生产运营数据,敏感数据泄露对企业的影响是不可逆的,凸显出数据安全在数据治理过程中的重要性。
数据安全包括以下三点:
(1)数据存储安全:包括物理安全、系统安全存储数据的安全,主要通过安全硬件的采购来保障数据存储安全。
(2)数据传输安全:包括数据加密和数据网络安全控制,通过专业数据安全厂商提供技术保障。
(3)数据使用安全:基于业务系统层面,建立完善的数据安全管理体系、审查机制。对生产及研发测试过程中使用的各类敏感数据进行严密管理。
2.2.9 数据服务
数据治理是为了更好地利用数据,是数据应用的基础。基于工业领域的业务需求,大体划分为三个方向:应用支撑、工具应用及业务应用。
应用支撑服务包括知识图谱构建、数据服务总线和服务管理等服务类型;工具应用服务包括生产查询检索服务、模型分析服务和数据管理服务等服务类型;业务应用服务包括产品溯源、异常预警和可视化大屏等服务类型。
通过对海量数据的集中、整合、挖掘和共享,结合全方位、多层次的数据服务体系,增强了异常处理的实时性和前瞻性,推动工业向信息化、智能化转型。
03工业数字化之数据治理实践
本文基于工业数据治理体系,以光纤生产为背景,探索工业数据治理在光纤生产领域的应用实践。采用大数据分布式架构实现对数据的采集、清洗、存储。
构建数据地图并进行数据血缘分析,采用智能算法实现数据对齐、生产异常自动识别与预警。对比了数据治理前后产品数据分析的优化效果,搭建了数字化大屏,呈现可视化的数据治理成效,最后总结了数据治理为光纤生产带来的产品质量和效率的提升。
3.1 数据地图
数据地图的构建属于数据治理中的元数据管理环节。光纤工业的数据来源广,数量多,分散性强。传统的数据管理方式查找数据的成本较高。通过大数据采集存储技术,追踪从上游产品光纤预制棒至下游产品光缆的各项生产环节的原料、工况、质量等相关数据,能够实现数据串联,打通数据孤岛。数据地图如图7所示。
图7 数据地图
经过数据治理之后,在对光缆成品进行质量分析时,分析人员能够利用数据地图进行数据血缘分析,跟踪数据来源并分析任务依赖,轻松追溯到上游生产中的光纤拉丝、光纤预制棒生产环节的相关数据,而不仅仅局限于当前的生产环节,从而获得更有价值的分析结果。
3.2 数据对齐
数据对齐属于数据治理中的数据质量管理环节。以光纤预制棒的制造为例,由于预制棒在生产过程中发生了多次形变,后期预制棒测试数据无法与前期传感器记录的生产数据相对应。为了展开后续的质量分析研判工作,需要将测试数据与生产数据对齐。
通过对预制棒生产过程中的棒体尺寸数据等记录数据,采用膨胀点映射等智能算法对预制棒收缩和拉伸的过程进行建模还原,能够实现各个测试点位与生产时间段的对应,提升数据质量丰富数据量的同时,为后续人工智能建模分析打下良好基础。
图 8 数据对齐前后建模误差对比
图8展示了数据对齐前后预制棒BA比(芯层直径与包层直径之比)的建模预测误差率,曲线越靠下表示预测误差越低。可以看出,经过数据治理后,同样样本量下,由于数据对齐后能够进行测点分段映射,扩充了模型训练数据,使得基于随机森林的回归预测模型建模预测误差率明显降低。
3.3 异常识别与预警
传统异常告警机制具有告警模型单一,人工识别工作量大等缺陷,人工标注效率较低,而且误标、漏标率较高。
光纤工业的常见异常类型包括脉冲型异常,阶跃型异常以及模式异常,基于大量数据采用时序差分特征和时间窗统计特征构建的时间序列异常识别模型,能够实现复杂环境下的异常告警需求,同时极大提高历史异常识别效率,原本进行数据的收集、整理,再人工对异常进行标注的工作需要花费数天时间,通过数据治理集成异常识别模型后,只需要花费几分钟的时间即可完成历史异常的识别和分析。
3.4 数据分析周期优化
在光纤工业中,针对产品品质的数据分析是生产过程中的重要环节,需要不断通过分析确定工艺参数的调整方向,以此改善生产品质,保证生产稳定性。
开展数据治理前,数据分析的周期长、工作量大,分析的数据量也比较有限。在实施数据治理之后,采用云端采集和在线分析,代替过去手动采集和离线分析的方式,同时保证了数据的准确性和完整性,大大减少分析人员在繁琐的数据预处理任务中耗费的时间。数据治理前后对比如表1所示。
表1 数据治理前后对比
云端采集在线分析的方式能够避免数据的二次传输,同时能够利用服务器资源辅以定制化的数据分析工具产出分析结果,有效提高数据分析效率,数据分析周期由原来的3~7天缩短到了现在的当日产生数据,当日产出分析结果。在未来,将实现采集即服务,分析即服务的分析模式,保证数据高质量的同时实现毫秒级的数据分析反馈。
3.5 数字化大屏
将数据治理工作通过可视化方式展现,直观体现数据治理成果,提供企业运营、生产状况、产品画像等主题的大展示,实时呈现光纤工业生产运营状况,如图9所示。
图 9 数字化大屏
企业运营大屏展现了企业光棒、光纤、光缆的原料、生产、检验、仓储、销售等关键环节的信息。
生产状况大屏通过综合产量、良品率、稳定性、资源消耗等多方面因素建立的分析模型为产线评分,直观展现产线整体情况。
产品画像大屏基于历史生产数据、质量测试数据构建产品画像,以质量数据为导向回溯生产数据,量化展示产品质量差异的原因。
3.6 产品质量与效率提升
目前,企业在光纤预制棒、光纤拉丝中有诸多方面的提升,如表2所示。其中在光纤预制棒阶段,生产过程中内部形成杂质和气泡,会严重影响后续光纤拉丝过程。
经数据治理后,数据质量提高,通过数据分析与建模,不断优化生产工艺,有效降低预制棒的气泡缺陷率,改善光纤预制棒的均匀性和重复性,良品率大幅度提升,达到投产门槛;在光纤拉丝阶段,在拉丝提速、塔断及告警反馈等方面的业务痛点方面有明显的改善,拉丝良品率有效提升。
表2 产品质量与效率提升
04结论
本文介绍了数据治理的发展现状,分析了工业数据的特点,构建了一套面向工业的数据治理体系,并结合数据治理应用案例验证数据治理的成效。
以光纤生产为背景,应用案例表明,该工业数据治理体系作为工业数字化转型的支撑点,能够极大简化数据管理流程,减少人工工作量,提高数据价值密度,提升数据挖掘效率,为不同的业务分析场景提供高质量的数据接口,有效推动企业向数字化、智能化发展。
(部分内容来源网络,如有侵权请联系删除)