如何保证数据质量、数据治理:让数据质量更好

发布时间:2019.09.12来源:知乎浏览量:139次标签:数据治理

数据分析、数据挖掘等各种数据应用都离不开数据质量,数据质量的重要性不用多表。今天来浅谈如何通过数据治理,来保证数据质量。数据的生命周期往往会有以下4个过程:数据的产生、存储、加工和应用。 数据质量在这四个环节均会产生,所以需要有不同的手段。

1、数据产生阶段
这个阶段是数据质量问题的重灾区,无论是手工录入的数据,还是生产系统产生的数据,都会因为各种原因导致数据质量问题,比如手抖输错、生产系统波动等。对于这个阶段的问题,我们对应的手段是:控制输入

对于手动录入的数据,尽可能的使用非开放式的输入手段,如下拉菜单、单复选框、时间控件、标签(支持自定义学习型)等,必须开放的输入部分,进行必要的及时校验。另外在数据进入系统前,可以设立监控点,出现错误数据可以及时预警(邮件、信息手段进行通知)。

2、数据存储阶段
方法:数据统一及数据清洗
在数据仓库或数据中心建立时,就按照数据标准对关键字段进行统一命名、格式、精度等,排除数据的歧义。
对于已经存储在数仓中的数据,发现质量问题,就得使用数据质量管控工具了,这里推荐亿信睿治数据治理平台中的数据质量模块,可以很方便的检查出数据质量问题,且内置了丰富的清洗组件,不需要使用代码就可以完成对于大多数数据质量问题的便捷清洗。

3、数据加工阶段的质量管控手段
方法:数据质量管理工具
这个阶段的数据会经历很多过程,比如被引用,指标计算,从ODS层到集市层等,通过人力来管理的话,人力成本太高了。在这里还是推荐睿治数据治理平台的数据质量模块(没办法,的确好用),此软件数据质量功能模块支持在数据流向的各个节点进行数据质量监测,不仅可以进行实时数据质量的预警,还可以对已有数据进行数据质量校验,内置了很多种数据质量规则,没有研发经验的也能用得飞起,对技术小白很友好。

4、数据应用阶段的质量管理手段
数据使用阶段还需要质量管理?当然!
无论是在数据分析还是数据挖掘之后,结果自然是要保存下来的,此时的数据仍然要按照标准,进行规范的管理,无论是存储结果的表名,还是字段、格式等。此外,在数据分析、挖掘的时候,也会有新的数据产生,此时依然需要进行标准化之后进行统一管理。有新的数据质量问题产生,仍然需要想应的数据清洗工具进行清洗后再保存。

写在最后,数据质量问题对于很多企业已经是迫在眉睫需要解决的问题了,是时候开展数据治理了。话分两头讲,对于已有数据,通过数据质量管理工具进行校验和清洗,另外建立数据质量管控体系,通过PDCA闭环结构不断地提升数据质量;

数据质量
另外对于系统原因造成的数据质量问题,我们需要建立数据标准体系,对于可以改造的生产系统,在数据标准的指导下进行改造,对于不能改造的系统,通过一些技术手段进行清洗转换,在数据产生的环节把控数据质量,这样效率必然是最高的。

数据质量的提升并不是一蹴而就的,做一次数据整改就能解决所有数据质量问题。而是需要通过数据标准和数据质量建立起完善的数据质量管控体系,在各个环节进行监控,定期检查数据质量,确定解决方案,并加以改进。数据质量管理的平台工具,笔者在这里推荐一下亿信华辰的睿治数据治理平台,该平台内置了13中数据质量检查规则,可根据实际需求建立完善的质检方案,精准识别和定位数据质量问题,并可直接关联数据质量整改工作流,帮助企业提升数据质量。质量乃数据之根本,没有质量,数据便不可信,在此之上的数据分析、数据挖掘更是一纸空谈,甚至是大谬论。提升数据质量,建立起可信的企业级大数据势在必行。
(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 如何成功实现一个数据治理项目,大神详细拆解实施要点

    如何成功实现一个数据治理项目,大神详细拆解实施要点

    数据作为新型生产要素,只有流动、分享、加工处理才能创造价值。如今数据治理成为数字经济必经之路,怎么实现一个数据治理项目成为大家最关心的问……查看详情

    发布时间:2021.02.02来源:知乎浏览量:202次

  • 十年经验总结:企业物料主数据建设方案

    十年经验总结:企业物料主数据建设方案

    目前很多企业已建立ERP系统,关联到整个企业运营的物料数据仍然存在“一物多码”、“描述不规范”等数据质量问题,这会对企业数据流通共享和经……查看详情

    发布时间:2021.05.21来源:亿信数据治理知识库浏览量:333次

  • 2018年中国大数据交易产业十大事件

    2018年中国大数据交易产业十大事件

    凡是过去,皆为序章。中国大数据交易产业2018年大事频出,国家大数据(贵州)综合试验区“大数据资源流通”取得新进展,2018第四届中国(……查看详情

    发布时间:2019.02.13来源:亿信华辰浏览量:116次

  • 大数据与人工智能有何区别以及哪个技术更好

    大数据与人工智能有何区别以及哪个技术更好

    要想了解大数据与人工智能的区别,首先要从认知大数据和人工智能的概念开始。……查看详情

    发布时间:2019.03.06来源:亿信华辰浏览量:87次

  • 数据质量问题分析

    数据质量问题分析

    数据质量问题主要包含四个问题域:技术问题、信息问题、流程问题、管理问题。1、技术问题由于具体数据处理的各技术环节异常所造成的数据质量问题……查看详情

    发布时间:2019.01.07来源:亿信华辰浏览量:141次

  • 98%的企业备战数据治理,尚未入局的你还在等什么

    98%的企业备战数据治理,尚未入局的你还在等什么

    UBM近日发布了一份2018企业数据治理白皮书。白皮书中分析了数据治理的现状:虽然越来越多的企业(尤其是业务部门及IT部门)逐渐开始关注……查看详情

    发布时间:2019.05.30来源:亿信华辰浏览量:121次

  • 数据共享,奇葩证明的解药——亿信华辰

    数据共享,奇葩证明的解药——亿信华辰

    出境旅游,要求出具“母子关系证明”;市民迁户口,要证明“你爸是你爸”;车在大风中被树木刮伤,理赔要出示“风力证明”;去买房,要证明“结婚……查看详情

    发布时间:2019.03.04来源:亿信华辰浏览量:120次

  • 简明扼要的数据治理指南

    简明扼要的数据治理指南

    数据收集是企业执行的最重要的功能之一。通过获取有关您的客户,员工,财务等的数据,您可以确保轻松,可靠地访问有助于指导主要业务决策的信息。……查看详情

    发布时间:2019.07.04来源:知乎浏览量:108次

  • 数据治理指标跟踪

    数据治理指标跟踪

    在NYU Langone Health System,提供者的角色不仅对患者至关重要,对整个企业也至关重要。提供者是为患者提供医疗保健的……查看详情

    发布时间:2019.03.22来源:亿信华辰浏览量:137次

  • 数据治理的价值体系包括哪些方面?

    数据治理的价值体系包括哪些方面?

    数据治理的目标是通过对数据资产的有效管控持续创造价值,价值域通过对治理结果的有效整理,通过构建具体化的数据产品,实现上述的价值创造。那么……查看详情

    发布时间:2022.05.05来源:小亿浏览量:287次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议