如何保证数据质量、数据治理:让数据质量更好

发布时间:2019.09.12来源:知乎浏览量:144次标签:数据治理

数据分析、数据挖掘等各种数据应用都离不开数据质量,数据质量的重要性不用多表。今天来浅谈如何通过数据治理,来保证数据质量。数据的生命周期往往会有以下4个过程:数据的产生、存储、加工和应用。 数据质量在这四个环节均会产生,所以需要有不同的手段。

1、数据产生阶段
这个阶段是数据质量问题的重灾区,无论是手工录入的数据,还是生产系统产生的数据,都会因为各种原因导致数据质量问题,比如手抖输错、生产系统波动等。对于这个阶段的问题,我们对应的手段是:控制输入

对于手动录入的数据,尽可能的使用非开放式的输入手段,如下拉菜单、单复选框、时间控件、标签(支持自定义学习型)等,必须开放的输入部分,进行必要的及时校验。另外在数据进入系统前,可以设立监控点,出现错误数据可以及时预警(邮件、信息手段进行通知)。

2、数据存储阶段
方法:数据统一及数据清洗
在数据仓库或数据中心建立时,就按照数据标准对关键字段进行统一命名、格式、精度等,排除数据的歧义。
对于已经存储在数仓中的数据,发现质量问题,就得使用数据质量管控工具了,这里推荐亿信睿治数据治理平台中的数据质量模块,可以很方便的检查出数据质量问题,且内置了丰富的清洗组件,不需要使用代码就可以完成对于大多数数据质量问题的便捷清洗。

3、数据加工阶段的质量管控手段
方法:数据质量管理工具
这个阶段的数据会经历很多过程,比如被引用,指标计算,从ODS层到集市层等,通过人力来管理的话,人力成本太高了。在这里还是推荐睿治数据治理平台的数据质量模块(没办法,的确好用),此软件数据质量功能模块支持在数据流向的各个节点进行数据质量监测,不仅可以进行实时数据质量的预警,还可以对已有数据进行数据质量校验,内置了很多种数据质量规则,没有研发经验的也能用得飞起,对技术小白很友好。

4、数据应用阶段的质量管理手段
数据使用阶段还需要质量管理?当然!
无论是在数据分析还是数据挖掘之后,结果自然是要保存下来的,此时的数据仍然要按照标准,进行规范的管理,无论是存储结果的表名,还是字段、格式等。此外,在数据分析、挖掘的时候,也会有新的数据产生,此时依然需要进行标准化之后进行统一管理。有新的数据质量问题产生,仍然需要想应的数据清洗工具进行清洗后再保存。

写在最后,数据质量问题对于很多企业已经是迫在眉睫需要解决的问题了,是时候开展数据治理了。话分两头讲,对于已有数据,通过数据质量管理工具进行校验和清洗,另外建立数据质量管控体系,通过PDCA闭环结构不断地提升数据质量;

数据质量
另外对于系统原因造成的数据质量问题,我们需要建立数据标准体系,对于可以改造的生产系统,在数据标准的指导下进行改造,对于不能改造的系统,通过一些技术手段进行清洗转换,在数据产生的环节把控数据质量,这样效率必然是最高的。

数据质量的提升并不是一蹴而就的,做一次数据整改就能解决所有数据质量问题。而是需要通过数据标准和数据质量建立起完善的数据质量管控体系,在各个环节进行监控,定期检查数据质量,确定解决方案,并加以改进。数据质量管理的平台工具,笔者在这里推荐一下亿信华辰的睿治数据治理平台,该平台内置了13中数据质量检查规则,可根据实际需求建立完善的质检方案,精准识别和定位数据质量问题,并可直接关联数据质量整改工作流,帮助企业提升数据质量。质量乃数据之根本,没有质量,数据便不可信,在此之上的数据分析、数据挖掘更是一纸空谈,甚至是大谬论。提升数据质量,建立起可信的企业级大数据势在必行。
(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 实施数据治理 - 学到3个主要经验教训

    实施数据治理 - 学到3个主要经验教训

    尽管数据治理在开发过程中可能会有些流动和迭代,但遵循最佳实践并设计精心定位的路线图有助于确保成功。……查看详情

    发布时间:2018.12.21来源:亿信华辰浏览量:152次

  • 基于大数据架构的医院数据中心管理

    基于大数据架构的医院数据中心管理

    医疗数据较为复杂,以医院来说建设的业务系统接近百来个,例如HIS系统、急诊系统、护理系统、电子病历系统、检验系统、检查系统、输血系统、生……查看详情

    发布时间:2019.02.14来源:亿信华辰浏览量:114次

  • 数据治理,人工智能和医疗保健:令人兴奋的健康新世界

    数据治理,人工智能和医疗保健:令人兴奋的健康新世界

    随着AI变得越来越普遍,对数据治理的需求也在增加。这是一个由政府确定的问题,因为它最近宣布了一个监督大量数据集的道德小组。2017年1月……查看详情

    发布时间:2019.03.06来源:亿信华辰浏览量:174次

  • 重新思考数据治理

    重新思考数据治理

    随着数据和分析技术的变化,它们带来了新的数据治理挑战。当然,数据治理有各种定义,具体取决于您询问的对象。出于本文的目的,我们将其定义为确……查看详情

    发布时间:2018.11.26来源:数据治理浏览量:145次

  • 数据湖架构 - 最佳实践指南

    数据湖架构 - 最佳实践指南

    实施正确的数据湖架构对于将数据转化为价值至关重要。无论您的数据湖中有多少数据,如果您缺乏有效管理数据、跟踪数据并确保其安全的架构特性,那……查看详情

    发布时间:2021.06.18来源:亿信数据治理知识库浏览量:125次

  • 数据治理如何推动医疗大数据的发展

    数据治理如何推动医疗大数据的发展

    数据治理是一种管理数据的方法,允许组织平衡两个需求:收集和保护信息的需求,同时从信息中获取价值。但它远不止于此。医疗大数据其中的健康数据……查看详情

    发布时间:2019.08.15来源:知乎浏览量:122次

  • 什么是数据标准?如何制定数据标准?这份指南送上

    什么是数据标准?如何制定数据标准?这份指南送上

    随着大数据行业的兴起,数据的重要性不言而喻,对数据进行应用的工具层出不穷,带来了巨大的经济效益。可很快就发现了诸多数据问题,制约了数据应……查看详情

    发布时间:2020.09.29来源:头条浏览量:123次

  • 亿信华辰成为DAMA数据管理知识体系授权培训基地

    亿信华辰成为DAMA数据管理知识体系授权培训基地

    2021年4月,亿信华辰被正式授权为DAMA中国(国际数据管理协会-中国分会)数据管理知识体系培训基地,成为DAMA在数据管理领域专业人……查看详情

    发布时间:2021.06.22来源:亿信华辰浏览量:113次

  • 大数据:产业链条将更为完备

    大数据:产业链条将更为完备

    2018年,我国大数据产业呈现健康快速发展态势,包括大数据硬件、大数据软件、大数据服务等在内的大数据核心产业环节产业规模有望达到5700……查看详情

    发布时间:2019.02.20来源:亿信华辰浏览量:105次

  • 中小银行数据治理难点在哪儿?

    中小银行数据治理难点在哪儿?

    银行数字化转型是银行业伴随金融科技发展的必然趋势,而数据治理是实现银行数字化转型的基础。……查看详情

    发布时间:2019.12.13来源:CSDN浏览量:138次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议