数据质量管理策略-从产生数据的源头开始抓

发布时间:2019.12.27来源:CSDN浏览量:2次标签:数据治理

为了改进和提高数据质量,必须从产生数据的源头开始抓起,从管理入手,对数据运行的全过程进行监控,密切关注数据质量的发展和变化,深入研究数据质量问题所遵循的客观规律,分析其产生的机理,探索科学有效的控制方法和改进措施;必须强化全面数据质量管理的思想观念,把这一观念渗透到数据生命周期的全过程。


传统数据仓库中ETL的环节在大数据应用中会根据实际业务需求在不同的环节存在,分别进行粗细粒度不等的数据抽取、转换和加载,以适应容纳处理不同规模、不同结构、不同流量的数据。

结合大数据的参考框架及数据处理实际需求情况,数据质量管理可以从以下几个方面着手,以多方协作改进,最终实现系统数据处于持续高效可用的状态。

1、建立数据质量评价体系
评估数据质量,可以从如下4个方面来考虑:①完整性:数据的记录和信息是否完整,是否存在缺失情况;②一致性:数据的记录是否符合规范,是否与前后及其它数据集保持统一;③准确性:数据中记录的信息和数据是否准确,是否存在异常或者错误信息;④及时性:数据从产生到可以查看的时间间隔,也叫数据的延时时长。

有了评估方向,还需要使用可以量化、程序化识别的指标来衡量。通过量化指标,管理者才可能了解到当前数据质量,以及采取修正措施之后数据质量的改进程度。而对于海量数据,数据量大、处理环节多,获取质量指标的工作不可能由人工或简单的程序来完成,而需要程序化的制度和流程来保证,因此,指标的设计、采集与计算必须是程序可识别处理的。

完整性可以通过记录数和唯一值来衡量。比如某类的交易数据,每天的交易量应该呈现出平稳的特点,平稳增加、平稳增长或保持一定范围内的周期波动。如果记录数量出现激增或激减,则需要追溯是在哪个环节出现了变动,最终定位是数据问题还是服务出现了问题。对于属性的完整性考量,则可以通过空值占比或无效值占比来进行检查。

一致性检验主要是检验数据和数据定义是否一致,因此可以通过合规记录的比率来衡量。比如取值范围是枚举集合的数据,其实际值超出范围之外的数据占比,比如存在特定编码规则的属性值不符合其编码规则的记录占比。还有一些存在逻辑关系的属性之间的校验,比如属性A取某定值时,属性B的值应该在某个特定的数据范围内,都可以通过合规率来衡量。

准确性可能存在于个别记录,也可能存在于整个数据集上。准确性和一致性的差别在于一致性关注合规,表示统一,而准确性关注数据错误。因此,同样的数据表现,比如数据实际值不在定义的范围内,如果定义的范围准确,值完全没有意义,那么这属于数据错误。但如果值是合理且有意义的,那么可能是范围定义不够全面,则不能认定为数据错误,而是应该去补充修改数据定义。

通过建立数据质量评价体系,对整个流通链条上的数据质量进行量化指标输出,后续进行问题数据的预警,使得问题一出现就可以暴露出来,便于进行问题的定位和解决,最终可以实现在哪个环节出现就在哪个环节解决,避免了将问题数据带到后端及其质量问题扩大。

2、落实数据质量信息的采集、分析与监控
有评价体系作为参照,还需要进行数据的采集、分析和监控,为数据质量提供全面可靠的信息。在数据流转环节的关键点上设置采集点,采集数据质量监控信息,按照评价体系的指标要求,输出分析报告。

在此流程中,会有一系列的数据采集点。根据系统对数据质量的要求,配置相应的采集规则,通过在采集点处进行质量数据采集并进行统计分析,就可以得到采集点处的数据分析报告。通过对来源数据的质量分析,可以了解数据和评价接入数据的质量;通过对上下采集点的数据分析报告的对比,可以评估数据处理流程的工作质量。配合数据质量的持续改进工作机制,进行质量问题原因的定位、处理和跟踪。

3、建立数据质量的持续改进工作机制
通过质量评价体系和质量数据采集系统,可以发现问题,之后还需要对发现的问题及时作出反应,追溯问题原因和形成机制,根据问题种类采取相应的改进措施,并持续跟踪验证改进之后的数据质量提升效果,形成正反馈,达到数据质量持续改良的效果。在源头建立数据标准或接入标准,规范数据定义,在数据流转过程中建立监控数据转换质量的流程和体系,尽量做到在哪发现问题就在哪解决问题,不把问题数据带到后端。

导致数据质量产生问题的原因很多。有研究表示,从问题的产生原因和来源,可以分为四大问题域:信息问题域、技术问题域、流程问题域和管理问题域。信息类问题是由于对数据本身的描述、理解及其度量标准偏差而造成的数据质量问题。产生这类数据质量问题的主要原因包括:数据标准不完善、元数据描述及理解错误、数据度量得不到保证和变化频度不恰当等。技术类问题是指由于在数据处理流程中数据流转的各技术环节异常或缺陷而造成的数据质量问题,它产生的直接原因是技术实现上的某种缺陷。技术类数据质量问题主要产生在数据创建、数据接入、数据抽取、数据转换、数据装载、数据使用和数据维护等环节。流程类问题是指由于数据流转的流程设计不合理、人工操作流程不当造成的数据质量问题。所有涉及到数据流转流程的各个环节都可能出现问题,比如接入新数据缺乏对数据检核、元数据变更没有考虑到历史数据的处理、数据转换不充分等各种流程设计错误、数据处理逻辑有缺陷等问题。管理类问题是指由于人员素质及管理机制方面的原因造成的数据质量问题。比如数据接入环节由于工期压力而减少对数据检核流程的执行和监控、缺乏反馈渠道及处理责任人、相关人员缺乏培训和过程资产继承随之带来的一系列问题等。

了解问题产生的原因和来源后,就可以对每一类问题建立起识别、反馈、处理、验证的流程和制度。比如数据标准不完善导致的问题,这就需要有一整套数据标准问题识别、标准修正、现场实施和验证的流程,确保问题的准确解决,不带来新的问题。比如缺乏反馈渠道和处理责任人的问题,则属于管理问题,则需要建立一套数据质量的反馈和响应机制,配合问题识别、问题处理、解决方案的现场实施与验证、过程和积累等多个环节和流程,保证每一个问题都能得到有效解决并有效积累处理的过程和经验,形成越来越完善的一个有机运作体。

当然,很多问题是相互影响的,单一地解决某一方面的问题可能暂时解决不了所发现的问题,但是当多方面的持续改进机制协同工作起来之后,互相影响,交错前进,一点点改进,最终就会达到一个比较好的效果。

4、完善元数据管理
数据质量的采集规则和检查规则本身也是一种数据,在元数据中定义。元数据按照官方定义,是描述数据的数据。面对庞大的数据种类和结构,如果没有元数据来描述这些数据,使用者无法准确地获取所需信息。正是通过元数据,海量的数据才可以被理解、使用,才会产生价值。

元数据可以按照其用途分为3类:技术元数据、业务元数据和管理元数据。技术元数据:存储关于信息仓库系统技术细节的数据,适用于开发和管理数据而使用的数据。主要包括数据仓库结构的描述,包括对数据结构、数据处理过程的特征描述,存储方式和位置覆盖整个涉及数据的生产和消费环节。业务元数据:从业务角度描述了数据仓库中的数据,提供了业务使用者和实际系统之间的语义层。主要包括业务术语、指标定义、业务规则等信息。

管理元数据:描述系统中管理领域相关概念、关系和规则的数据,主要包括人员角色、岗位职责、管理流程等信息。由此可见,本文提出的解决思路都需要元数据管理系统的支持。良好的元数据管理系统能为数据质量的采集、分析、监控、改进提供高效、有力的强大保障。同时,良好的数据质量管理系统也能促进元数据管理系统的持续改进,互相促进完善,共同为一个高质量和高效运转的数据平台提供支持。
(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 理论之企业数据挖掘成功之道

    理论之企业数据挖掘成功之道

    面对现在海量的、不完整的、模棱两可的数据,运用数据挖掘算法对数据进行查找,找出人们所不知道的、有实用价值的信息,这一过程就是数据挖据。随……查看详情

    发布时间:2019.05.23来源:知乎浏览量:7次

  • 亿信华辰成为DAMA数据管理知识体系授权培训基地

    亿信华辰成为DAMA数据管理知识体系授权培训基地

    2021年4月,亿信华辰被正式授权为DAMA中国(国际数据管理协会-中国分会)数据管理知识体系培训基地,成为DAMA在数据管理领域专业人……查看详情

    发布时间:2021.06.22来源:亿信华辰浏览量:8次

  • 数据治理中,如何做好数据清理与归档

    数据治理中,如何做好数据清理与归档

    传统上,数据的清理和归档属于DBA的职责,随着企业数字化转型、数据治理工作的推进,这项工作也被纳入了数据治理工作的重要内容。数据团队定期……查看详情

    发布时间:2021.06.24来源:亿信数据治理知识库浏览量:8次

  • 数据交换服务组件介绍

    数据交换服务组件介绍

    数据交换服务组件,在遵循一定的交换策略条件下进行数据交换及消息传递,支持数据资源在不同单位、不同区域的快速交换和共享,提供配置工具生成交……查看详情

    发布时间:2020.08.12来源:知乎浏览量:5次

  • 数据治理的演变

    数据治理的演变

    数据治理正在迅速发展。……查看详情

    发布时间:2019.03.12来源:亿信华辰浏览量:4次

  • 浅谈数据治理

    浅谈数据治理

    随着越来越多的企业建立并广泛应用BI系统,数据治理的话题也在最近被越来越多地提及和讨论。有专家表示,只有建立了一定的数据治理体系,用户才……查看详情

    发布时间:2020.06.19来源:CSDN浏览量:8次

  • 数据与数据治理两个基本概念

    数据与数据治理两个基本概念

    数据治理这项基础数据能力的重要性越来越多突出。2017年4月22日,中国数据标准化及治理奖实践奖的现场评审在清华大学成功举行。……查看详情

    发布时间:2018.11.30来源:御数坊浏览量:2次

  • 数据安全事件频发的当下,如何保障数据治理过程中的绝对安全?

    数据安全事件频发的当下,如何保障数据治理过程中的绝对安全?

    在数据治理过程中,如果数据不安全会导致数据治理不到位,甚至是治理好的数据被滥用或盗用。数据安全问题其实说白了通常是由于防范不到位、管理不……查看详情

    发布时间:2020.10.21来源:知乎浏览量:2次

  • 数据治理治的是“数据”吗?

    数据治理治的是“数据”吗?

    数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。其实在我看来,……查看详情

    发布时间:2020.07.07来源:知乎浏览量:5次

  • 金融服务的数据治理2.0

    金融服务的数据治理2.0

    随着金融服务业面临特别的压力,数据驱动型业务的变化速度正在增加。对于银行,信用卡,保险,抵押贷款公司等,必须正确地进行数据治理。……查看详情

    发布时间:2019.01.25来源:亿信华辰浏览量:2次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议