数据质量管理策略-从产生数据的源头开始抓

发布时间:2019.12.27来源:CSDN浏览量:85次标签:数据治理

为了改进和提高数据质量,必须从产生数据的源头开始抓起,从管理入手,对数据运行的全过程进行监控,密切关注数据质量的发展和变化,深入研究数据质量问题所遵循的客观规律,分析其产生的机理,探索科学有效的控制方法和改进措施;必须强化全面数据质量管理的思想观念,把这一观念渗透到数据生命周期的全过程。


传统数据仓库中ETL的环节在大数据应用中会根据实际业务需求在不同的环节存在,分别进行粗细粒度不等的数据抽取、转换和加载,以适应容纳处理不同规模、不同结构、不同流量的数据。

结合大数据的参考框架及数据处理实际需求情况,数据质量管理可以从以下几个方面着手,以多方协作改进,最终实现系统数据处于持续高效可用的状态。

1、建立数据质量评价体系
评估数据质量,可以从如下4个方面来考虑:①完整性:数据的记录和信息是否完整,是否存在缺失情况;②一致性:数据的记录是否符合规范,是否与前后及其它数据集保持统一;③准确性:数据中记录的信息和数据是否准确,是否存在异常或者错误信息;④及时性:数据从产生到可以查看的时间间隔,也叫数据的延时时长。

有了评估方向,还需要使用可以量化、程序化识别的指标来衡量。通过量化指标,管理者才可能了解到当前数据质量,以及采取修正措施之后数据质量的改进程度。而对于海量数据,数据量大、处理环节多,获取质量指标的工作不可能由人工或简单的程序来完成,而需要程序化的制度和流程来保证,因此,指标的设计、采集与计算必须是程序可识别处理的。

完整性可以通过记录数和唯一值来衡量。比如某类的交易数据,每天的交易量应该呈现出平稳的特点,平稳增加、平稳增长或保持一定范围内的周期波动。如果记录数量出现激增或激减,则需要追溯是在哪个环节出现了变动,最终定位是数据问题还是服务出现了问题。对于属性的完整性考量,则可以通过空值占比或无效值占比来进行检查。

一致性检验主要是检验数据和数据定义是否一致,因此可以通过合规记录的比率来衡量。比如取值范围是枚举集合的数据,其实际值超出范围之外的数据占比,比如存在特定编码规则的属性值不符合其编码规则的记录占比。还有一些存在逻辑关系的属性之间的校验,比如属性A取某定值时,属性B的值应该在某个特定的数据范围内,都可以通过合规率来衡量。

准确性可能存在于个别记录,也可能存在于整个数据集上。准确性和一致性的差别在于一致性关注合规,表示统一,而准确性关注数据错误。因此,同样的数据表现,比如数据实际值不在定义的范围内,如果定义的范围准确,值完全没有意义,那么这属于数据错误。但如果值是合理且有意义的,那么可能是范围定义不够全面,则不能认定为数据错误,而是应该去补充修改数据定义。

通过建立数据质量评价体系,对整个流通链条上的数据质量进行量化指标输出,后续进行问题数据的预警,使得问题一出现就可以暴露出来,便于进行问题的定位和解决,最终可以实现在哪个环节出现就在哪个环节解决,避免了将问题数据带到后端及其质量问题扩大。

2、落实数据质量信息的采集、分析与监控
有评价体系作为参照,还需要进行数据的采集、分析和监控,为数据质量提供全面可靠的信息。在数据流转环节的关键点上设置采集点,采集数据质量监控信息,按照评价体系的指标要求,输出分析报告。

在此流程中,会有一系列的数据采集点。根据系统对数据质量的要求,配置相应的采集规则,通过在采集点处进行质量数据采集并进行统计分析,就可以得到采集点处的数据分析报告。通过对来源数据的质量分析,可以了解数据和评价接入数据的质量;通过对上下采集点的数据分析报告的对比,可以评估数据处理流程的工作质量。配合数据质量的持续改进工作机制,进行质量问题原因的定位、处理和跟踪。

3、建立数据质量的持续改进工作机制
通过质量评价体系和质量数据采集系统,可以发现问题,之后还需要对发现的问题及时作出反应,追溯问题原因和形成机制,根据问题种类采取相应的改进措施,并持续跟踪验证改进之后的数据质量提升效果,形成正反馈,达到数据质量持续改良的效果。在源头建立数据标准或接入标准,规范数据定义,在数据流转过程中建立监控数据转换质量的流程和体系,尽量做到在哪发现问题就在哪解决问题,不把问题数据带到后端。

导致数据质量产生问题的原因很多。有研究表示,从问题的产生原因和来源,可以分为四大问题域:信息问题域、技术问题域、流程问题域和管理问题域。信息类问题是由于对数据本身的描述、理解及其度量标准偏差而造成的数据质量问题。产生这类数据质量问题的主要原因包括:数据标准不完善、元数据描述及理解错误、数据度量得不到保证和变化频度不恰当等。技术类问题是指由于在数据处理流程中数据流转的各技术环节异常或缺陷而造成的数据质量问题,它产生的直接原因是技术实现上的某种缺陷。技术类数据质量问题主要产生在数据创建、数据接入、数据抽取、数据转换、数据装载、数据使用和数据维护等环节。流程类问题是指由于数据流转的流程设计不合理、人工操作流程不当造成的数据质量问题。所有涉及到数据流转流程的各个环节都可能出现问题,比如接入新数据缺乏对数据检核、元数据变更没有考虑到历史数据的处理、数据转换不充分等各种流程设计错误、数据处理逻辑有缺陷等问题。管理类问题是指由于人员素质及管理机制方面的原因造成的数据质量问题。比如数据接入环节由于工期压力而减少对数据检核流程的执行和监控、缺乏反馈渠道及处理责任人、相关人员缺乏培训和过程资产继承随之带来的一系列问题等。

了解问题产生的原因和来源后,就可以对每一类问题建立起识别、反馈、处理、验证的流程和制度。比如数据标准不完善导致的问题,这就需要有一整套数据标准问题识别、标准修正、现场实施和验证的流程,确保问题的准确解决,不带来新的问题。比如缺乏反馈渠道和处理责任人的问题,则属于管理问题,则需要建立一套数据质量的反馈和响应机制,配合问题识别、问题处理、解决方案的现场实施与验证、过程和积累等多个环节和流程,保证每一个问题都能得到有效解决并有效积累处理的过程和经验,形成越来越完善的一个有机运作体。

当然,很多问题是相互影响的,单一地解决某一方面的问题可能暂时解决不了所发现的问题,但是当多方面的持续改进机制协同工作起来之后,互相影响,交错前进,一点点改进,最终就会达到一个比较好的效果。

4、完善元数据管理
数据质量的采集规则和检查规则本身也是一种数据,在元数据中定义。元数据按照官方定义,是描述数据的数据。面对庞大的数据种类和结构,如果没有元数据来描述这些数据,使用者无法准确地获取所需信息。正是通过元数据,海量的数据才可以被理解、使用,才会产生价值。

元数据可以按照其用途分为3类:技术元数据、业务元数据和管理元数据。技术元数据:存储关于信息仓库系统技术细节的数据,适用于开发和管理数据而使用的数据。主要包括数据仓库结构的描述,包括对数据结构、数据处理过程的特征描述,存储方式和位置覆盖整个涉及数据的生产和消费环节。业务元数据:从业务角度描述了数据仓库中的数据,提供了业务使用者和实际系统之间的语义层。主要包括业务术语、指标定义、业务规则等信息。

管理元数据:描述系统中管理领域相关概念、关系和规则的数据,主要包括人员角色、岗位职责、管理流程等信息。由此可见,本文提出的解决思路都需要元数据管理系统的支持。良好的元数据管理系统能为数据质量的采集、分析、监控、改进提供高效、有力的强大保障。同时,良好的数据质量管理系统也能促进元数据管理系统的持续改进,互相促进完善,共同为一个高质量和高效运转的数据平台提供支持。
(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • “数据法治化治理”应平衡安全与发展

    “数据法治化治理”应平衡安全与发展

    数据治理的法治化问题,即对数据治理主体的权利义务的设定及其关系模式之制度安排,应符合法治主义要求。“数据法治化治理”要特别关注合法性。……查看详情

    发布时间:2019.08.02来源:中国人民大学未来法治研究院浏览量:72次

  • 企业构建数据中台是否存在一个量化或判断的标准?

    企业构建数据中台是否存在一个量化或判断的标准?

    对这个问题有几种解读,第一种解读是说企业是否要构建自己的数据中台,这个问题有没有标准?以这个问题来讲的话,我们认为所有的企业它都需要数据……查看详情

    发布时间:2021.01.23来源:知乎浏览量:79次

  • 业务词汇表和元数据:数据治理和词汇表准备

    业务词汇表和元数据:数据治理和词汇表准备

    我经常被问到“我们如何捕获数据词汇表资产”和“我们是否已准备好与数据管理员合作?”我的回答始终是:如果您能说明数据治理计划的目标并拥有赞……查看详情

    发布时间:2018.12.21来源:数据治理浏览量:76次

  • 数据治理的四点好处

    数据治理的四点好处

    大数据现在越来越广泛地应用在我们的日常生活当中,随着企业业务的发展,数据的来源、种类变得越来越多样化,系统改造或重新设计的难度就越大,所……查看详情

    发布时间:2022.02.22来源:小亿浏览量:134次

  • 为数据管理/数据质量/问题分析提供资金

    为数据管理/数据质量/问题分析提供资金

    大多数具有正式数据治理工作的组织都对正在进行的数据管理工作给予了高度关注,解决了利益相关者之间发生自然冲突和/或数据质量工作时出现的问题……查看详情

    发布时间:2019.03.19来源:亿信华辰浏览量:53次

  • 提高数据质量的方法

    提高数据质量的方法

    要想真正解决数据质量问题,应该从需求开始,企业往往在定义清楚业务需求后忽略对数据质量的控制,而只对已经产生的数据做检查,然后再将错误数据……查看详情

    发布时间:2019.11.15来源:知乎浏览量:75次

  • 企业数据质量管理的水平、直接影响数字化转型的进程!

    企业数据质量管理的水平、直接影响数字化转型的进程!

    企业在数字化转型的过程中,需利用云计算、大数据、移动互联和物联网技术,通过新的产品和服务、新的业务模式和新的关系创造价值和竞争优势。数字……查看详情

    发布时间:2019.08.01来源:知乎浏览量:87次

  • 98%的企业备战数据治理,尚未入局的你还在等什么

    98%的企业备战数据治理,尚未入局的你还在等什么

    UBM近日发布了一份2018企业数据治理白皮书。白皮书中分析了数据治理的现状:虽然越来越多的企业(尤其是业务部门及IT部门)逐渐开始关注……查看详情

    发布时间:2018.12.10来源:亿信华辰浏览量:72次

  • 打破数据治理:数据质量

    打破数据治理:数据质量

    任何数据驱动的计划的成功取决于该数据是否相关且值得信赖。随着越来越多的大学将数据视为负责任的战略规划和计划的关键,许多人都意识到:有些数……查看详情

    发布时间:2019.07.11来源:知乎浏览量:88次

  • 2019年专注于稳健数据治理的合规性,质量和定制

    2019年专注于稳健数据治理的合规性,质量和定制

    数据治理,组织内数据的正确和有组织的管理,仍然是2019年的一个焦点。对于希望充分利用其数据的组织,他们必须建立系统以确保数据的正确性,……查看详情

    发布时间:2019.03.26来源:亿信华辰浏览量:47次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议