数据质量管理策略-从产生数据的源头开始抓

发布时间:2019.12.27来源:CSDN浏览量:139次标签:数据治理

为了改进和提高数据质量,必须从产生数据的源头开始抓起,从管理入手,对数据运行的全过程进行监控,密切关注数据质量的发展和变化,深入研究数据质量问题所遵循的客观规律,分析其产生的机理,探索科学有效的控制方法和改进措施;必须强化全面数据质量管理的思想观念,把这一观念渗透到数据生命周期的全过程。


传统数据仓库中ETL的环节在大数据应用中会根据实际业务需求在不同的环节存在,分别进行粗细粒度不等的数据抽取、转换和加载,以适应容纳处理不同规模、不同结构、不同流量的数据。

结合大数据的参考框架及数据处理实际需求情况,数据质量管理可以从以下几个方面着手,以多方协作改进,最终实现系统数据处于持续高效可用的状态。

1、建立数据质量评价体系
评估数据质量,可以从如下4个方面来考虑:①完整性:数据的记录和信息是否完整,是否存在缺失情况;②一致性:数据的记录是否符合规范,是否与前后及其它数据集保持统一;③准确性:数据中记录的信息和数据是否准确,是否存在异常或者错误信息;④及时性:数据从产生到可以查看的时间间隔,也叫数据的延时时长。

有了评估方向,还需要使用可以量化、程序化识别的指标来衡量。通过量化指标,管理者才可能了解到当前数据质量,以及采取修正措施之后数据质量的改进程度。而对于海量数据,数据量大、处理环节多,获取质量指标的工作不可能由人工或简单的程序来完成,而需要程序化的制度和流程来保证,因此,指标的设计、采集与计算必须是程序可识别处理的。

完整性可以通过记录数和唯一值来衡量。比如某类的交易数据,每天的交易量应该呈现出平稳的特点,平稳增加、平稳增长或保持一定范围内的周期波动。如果记录数量出现激增或激减,则需要追溯是在哪个环节出现了变动,最终定位是数据问题还是服务出现了问题。对于属性的完整性考量,则可以通过空值占比或无效值占比来进行检查。

一致性检验主要是检验数据和数据定义是否一致,因此可以通过合规记录的比率来衡量。比如取值范围是枚举集合的数据,其实际值超出范围之外的数据占比,比如存在特定编码规则的属性值不符合其编码规则的记录占比。还有一些存在逻辑关系的属性之间的校验,比如属性A取某定值时,属性B的值应该在某个特定的数据范围内,都可以通过合规率来衡量。

准确性可能存在于个别记录,也可能存在于整个数据集上。准确性和一致性的差别在于一致性关注合规,表示统一,而准确性关注数据错误。因此,同样的数据表现,比如数据实际值不在定义的范围内,如果定义的范围准确,值完全没有意义,那么这属于数据错误。但如果值是合理且有意义的,那么可能是范围定义不够全面,则不能认定为数据错误,而是应该去补充修改数据定义。

通过建立数据质量评价体系,对整个流通链条上的数据质量进行量化指标输出,后续进行问题数据的预警,使得问题一出现就可以暴露出来,便于进行问题的定位和解决,最终可以实现在哪个环节出现就在哪个环节解决,避免了将问题数据带到后端及其质量问题扩大。

2、落实数据质量信息的采集、分析与监控
有评价体系作为参照,还需要进行数据的采集、分析和监控,为数据质量提供全面可靠的信息。在数据流转环节的关键点上设置采集点,采集数据质量监控信息,按照评价体系的指标要求,输出分析报告。

在此流程中,会有一系列的数据采集点。根据系统对数据质量的要求,配置相应的采集规则,通过在采集点处进行质量数据采集并进行统计分析,就可以得到采集点处的数据分析报告。通过对来源数据的质量分析,可以了解数据和评价接入数据的质量;通过对上下采集点的数据分析报告的对比,可以评估数据处理流程的工作质量。配合数据质量的持续改进工作机制,进行质量问题原因的定位、处理和跟踪。

3、建立数据质量的持续改进工作机制
通过质量评价体系和质量数据采集系统,可以发现问题,之后还需要对发现的问题及时作出反应,追溯问题原因和形成机制,根据问题种类采取相应的改进措施,并持续跟踪验证改进之后的数据质量提升效果,形成正反馈,达到数据质量持续改良的效果。在源头建立数据标准或接入标准,规范数据定义,在数据流转过程中建立监控数据转换质量的流程和体系,尽量做到在哪发现问题就在哪解决问题,不把问题数据带到后端。

导致数据质量产生问题的原因很多。有研究表示,从问题的产生原因和来源,可以分为四大问题域:信息问题域、技术问题域、流程问题域和管理问题域。信息类问题是由于对数据本身的描述、理解及其度量标准偏差而造成的数据质量问题。产生这类数据质量问题的主要原因包括:数据标准不完善、元数据描述及理解错误、数据度量得不到保证和变化频度不恰当等。技术类问题是指由于在数据处理流程中数据流转的各技术环节异常或缺陷而造成的数据质量问题,它产生的直接原因是技术实现上的某种缺陷。技术类数据质量问题主要产生在数据创建、数据接入、数据抽取、数据转换、数据装载、数据使用和数据维护等环节。流程类问题是指由于数据流转的流程设计不合理、人工操作流程不当造成的数据质量问题。所有涉及到数据流转流程的各个环节都可能出现问题,比如接入新数据缺乏对数据检核、元数据变更没有考虑到历史数据的处理、数据转换不充分等各种流程设计错误、数据处理逻辑有缺陷等问题。管理类问题是指由于人员素质及管理机制方面的原因造成的数据质量问题。比如数据接入环节由于工期压力而减少对数据检核流程的执行和监控、缺乏反馈渠道及处理责任人、相关人员缺乏培训和过程资产继承随之带来的一系列问题等。

了解问题产生的原因和来源后,就可以对每一类问题建立起识别、反馈、处理、验证的流程和制度。比如数据标准不完善导致的问题,这就需要有一整套数据标准问题识别、标准修正、现场实施和验证的流程,确保问题的准确解决,不带来新的问题。比如缺乏反馈渠道和处理责任人的问题,则属于管理问题,则需要建立一套数据质量的反馈和响应机制,配合问题识别、问题处理、解决方案的现场实施与验证、过程和积累等多个环节和流程,保证每一个问题都能得到有效解决并有效积累处理的过程和经验,形成越来越完善的一个有机运作体。

当然,很多问题是相互影响的,单一地解决某一方面的问题可能暂时解决不了所发现的问题,但是当多方面的持续改进机制协同工作起来之后,互相影响,交错前进,一点点改进,最终就会达到一个比较好的效果。

4、完善元数据管理
数据质量的采集规则和检查规则本身也是一种数据,在元数据中定义。元数据按照官方定义,是描述数据的数据。面对庞大的数据种类和结构,如果没有元数据来描述这些数据,使用者无法准确地获取所需信息。正是通过元数据,海量的数据才可以被理解、使用,才会产生价值。

元数据可以按照其用途分为3类:技术元数据、业务元数据和管理元数据。技术元数据:存储关于信息仓库系统技术细节的数据,适用于开发和管理数据而使用的数据。主要包括数据仓库结构的描述,包括对数据结构、数据处理过程的特征描述,存储方式和位置覆盖整个涉及数据的生产和消费环节。业务元数据:从业务角度描述了数据仓库中的数据,提供了业务使用者和实际系统之间的语义层。主要包括业务术语、指标定义、业务规则等信息。

管理元数据:描述系统中管理领域相关概念、关系和规则的数据,主要包括人员角色、岗位职责、管理流程等信息。由此可见,本文提出的解决思路都需要元数据管理系统的支持。良好的元数据管理系统能为数据质量的采集、分析、监控、改进提供高效、有力的强大保障。同时,良好的数据质量管理系统也能促进元数据管理系统的持续改进,互相促进完善,共同为一个高质量和高效运转的数据平台提供支持。
(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 全球数据治理市场到2024年 - 数据量的增长以提供巨大的机会

    全球数据治理市场到2024年 - 数据量的增长以提供巨大的机会

    预计数据治理市场在预测期间(2019年至2024年)的复合年增长率将超过21.44%,预计到2024年将达到43.5亿美元的价值。 ……查看详情

    发布时间:2019.07.04来源:知乎浏览量:103次

  • 幸存下来的数据治理浪潮

    幸存下来的数据治理浪潮

    我们正在从大数据的狂野西部时期出现,当时的问题主要集中在技术上是否可行,而不是合法或道德。文化需要一段时间才能改变,工具的发展也需要时间……查看详情

    发布时间:2019.03.05来源:亿信华辰浏览量:102次

  • 数据治理与数据质量

    数据治理与数据质量

    单纯从数据层面来看,数据体系包括治理、管理和应用三个部分。治理是负责解决人与人之间的事,管理负责各个职能领域,应用则是价值的实现。不讨论……查看详情

    发布时间:2019.01.03来源:Magic浏览量:84次

  • 什么是数据质量?如何衡量它以获得最佳结果?

    什么是数据质量?如何衡量它以获得最佳结果?

    我们过去谈过很多关于数据质量的问题 - 包括糟糕数据的成本。但是,尽管对数据质量有了基本的了解,但许多人仍然不太了解“质量”究竟是什么意……查看详情

    发布时间:2018.12.25来源:数据治理浏览量:150次

  • 关注:2019年大数据的10大发展趋势

    关注:2019年大数据的10大发展趋势

    如今,人们寻求获得更多的数据有着充分的理由,因为数据分析推动了数字创新。然而,将这些庞大的数据集转化为可操作的洞察力仍然是一个难题。而那……查看详情

    发布时间:2019.02.12来源:亿信华辰浏览量:96次

  • 数据在数字化转型时代的作用

    数据在数字化转型时代的作用

    说今天的商业环境变得极具竞争力可能是轻描淡写的,那些没有不断重塑业务的公司 - 以核心数据 - 最终会在市场中断的同时观望。数据技术,科……查看详情

    发布时间:2019.03.12来源:亿信华辰浏览量:116次

  • 未来我国大数据发展还有哪些机遇和挑战?

    未来我国大数据发展还有哪些机遇和挑战?

    随着信息技术和人类生产生活交汇融合,全球数据呈现爆发增长、海量集聚的特点。无论是国家、企业还是社会公众,都越来越认识到数据的价值。……查看详情

    发布时间:2019.03.18来源:亿信华辰浏览量:129次

  • 数据治理—各种规模银行的增长之路

    数据治理—各种规模银行的增长之路

    银行看到修复数据问题的成本显着上升。无论是建立集成能力以应对老化技术的直接费用,还是监管机构或审计师发现数据问题和评估民事罚款的间接费用……查看详情

    发布时间:2019.03.27来源:亿信华辰浏览量:78次

  • 十年经验总结:企业物料主数据建设方案

    十年经验总结:企业物料主数据建设方案

    目前很多企业已建立ERP系统,关联到整个企业运营的物料数据仍然存在“一物多码”、“描述不规范”等数据质量问题,这会对企业数据流通共享和经……查看详情

    发布时间:2021.05.21来源:亿信数据治理知识库浏览量:325次

  • 在数据智能时代企业面对庞大的数据量如何高效进行数据治理?

    在数据智能时代企业面对庞大的数据量如何高效进行数据治理?

    在数据智能时代,对企业而言,“数据驱动业务”或者“数据即是业务”的理念逐渐成为业界的一种共识。然而,数据孤岛、数据标准不统一等问题在一定……查看详情

    发布时间:2020.06.23来源:知乎浏览量:81次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议