如何保证数据质量?针对性业务方面的数据质量如何提升

发布时间:2019.11.15来源:知乎浏览量:242次标签:数据治理

平时企业都会处理数据质量的问题,越来越能够懂得数据库整套系统的运行模式和模型概念,深深觉得数据挖掘的本质其实不仅仅是从海量的数据中发现有效的,有用的,有目的性的数据,深入来说,如果大数据平台里的数据质量根本无法保证,那么数据挖掘就是毫无意义的,命中率和精确度根本没有参考价值。但是问题就出在这里,外围系统抽取隔离的数据,要怎么样清洗和梳理才能够在数据的源头上尽可能的提高数据质量?不可能每个人都懂业务,对针对性业务方面的数据质量如何提升。

每个企业都会存在数据质量问题。所有人都知道数据分析、数据挖掘的80%工作量都在数据处理上。但是与数据分析、数据挖掘红得发紫的热度相比,数据处理显得冷清多了。

业务数据的生命周期说起。

数据的流转分为四个步骤:数据的产生、存储、加工和使用。

数据质量在这四个环节均会产生。所以需要有不同的手段。


在各个环节控制质量的最开始,我们需要对数据质量管理进行标准定义处理。即对元数据进行梳理,并按照元数据管理理念,对各个环节的数据进行管控。在此只探讨结构化数据,非结构化数据可以结构化之后再以此法继续。

0、元数据管理

元数据管理简单来说,就是建立一套标准的指标(度量)、口径(维度)等体系,建立相关的单位、分组等支撑信息。目的是保证各环节的数据一致性和统一性。

1、数据产生阶段的质量管理手段

方法:控制输入

尽可能的使用非开放式的输入手段,如下拉菜单、单复选框、时间控件、标签(支持自定义学习型)等。必须开放的输入部分,进行必要的校验。

互联网行业的log数据质量之高,简直不需要进行此步骤的管理!可以说互联网的log分析直接推动了大数据分析发展的进程。

2、数据存储阶段的质量管理手段

方法:数据统一在数据结构设计时,就应该按照标准对相同含义的字段统一命名、格式、精度等,排除数据的歧义。

3、数据加工阶段的质量管理手段

方法:数据清洗数据加工阶段的目的非常明确,但数据问题繁多,不同的问题需要使用不同的手段处理,详细操作手段见另外一个回答:数据挖掘中常用的数据清洗方法有哪些?

4、数据使用阶段的质量管理手段

数据使用阶段还需要质量管理?当然!无论是在数据分析还是数据挖掘之后,结果自然是要保存下来的,此时的数据仍然要按照标准,进行规范的管理,无论是存储结果的表名,还是字段、格式等。此外,在数据分析、挖掘的时候,也会有新的数据产生,此时依然需要进行标准化之后进行统一管理。

5、数据质量的持续监控和完善

数据质量管理并不是一个流程做完就结束了。如同戴明环一样,数据质量同样要建立一个环,不断发现问题,弥补问题。在各个环节新发现的各种问题,定期进行分析,确定应对方案,并加以改进。质量乃数据之根本,没有质量,数据便不可信,在此之上的数据分析、数据挖掘更是一纸空谈,甚至是大谬论。

工欲善其事,必先利其器,检测之前咱们有必要对检测工具有基本的认知:


亿信数据质量管理平台提供从标准定义、质量监控、绩效评估、质量分析、质量报告、重大问题及时告警、流程整改发起、系统管理等数据质量管理全过程的功能。通过事先定义好的规则、调度时间、工作流程,自动完成数据的质量检查,极大的减少人力的投入和过程干预,提升效率,减少误差。 同时遇到重大问题能够及时警告,对质量检查的结果提供多方式(界面、邮件、短信)告警,让用户及时了解到系统检查结果,避免重大问题的延误。
(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 应用程序组合管理:优化您的投资组合

    应用程序组合管理:优化您的投资组合

    过程的第四个也是最后一个阶段是优化您的投资组合,在这里您必须开始检查其他应用程序和项目之间的依赖关系。您还必须在每个应用程序中添加成本和……查看详情

    发布时间:2019.02.19来源:亿信华辰浏览量:194次

  • 数据治理及其在激励数据中的作用

    数据治理及其在激励数据中的作用

    数据治理是一种包罗万象的数据工程和数据管理概念,组织采用该概念来确保整个数据生命周期中的高质量数据。此概念基于四个概念 - 可用性,适用……查看详情

    发布时间:2018.12.18来源:数据治理浏览量:213次

  • 现在企业为什么越来越关注数据治理了

    现在企业为什么越来越关注数据治理了

    数据治理在当今的企业中经常被引用,但是许多IT团队在围绕如此宽泛的概念进行思考时遇到了麻烦。数据治理也称为信息治理,是指用于管理整个组织……查看详情

    发布时间:2020.06.22来源:知乎浏览量:250次

  • 在信息治理中处于领先地位

    在信息治理中处于领先地位

    随着这一关键战略的出现,应对最新的信息治理,以应对医疗保健领域的众多信息管理挑战。本博客将重点介绍IG为确保将信息视为组织资产而提出的趋……查看详情

    发布时间:2018.11.21来源:信息治理浏览量:205次

  • 数据质量在数据治理中的重要意义

    数据质量在数据治理中的重要意义

    数据的质量问题从一定的角度反映出组织当中存在的一些问题,而问题的来源可能是数据流动,可能业务流程也可能源于管理问题等等,数据质量问题的分……查看详情

    发布时间:2020.01.10来源:CSDN浏览量:216次

  • 数据治理,帮你厘清企业的数据资产

    数据治理,帮你厘清企业的数据资产

    数据治理并不是一个新概念,最近因为5月份在欧盟推行的《通用数据保护条例》(General Data Protection Regulat……查看详情

    发布时间:2019.01.18来源:亿信华辰浏览量:175次

  • 数据资产管理领域重要的三个方向

    数据资产管理领域重要的三个方向

    数据资产管理领域重要的三个方向包括:资产分析、资产治理、资产应用,并需要基于这三个方向的技术研究和实战,将流程、经验、标准和规范等产品化……查看详情

    发布时间:2020.11.06来源:知乎浏览量:174次

  • 大数据环境下我国政府数据开放及应用研究

    大数据环境下我国政府数据开放及应用研究

    在当前政府各项工作开展过程中, 政府数据管理属于十分重要的一项任务及内容, 对于政府各项政务工作的开展均具有十分重要的作用及意义。……查看详情

    发布时间:2019.02.19来源:亿信华辰浏览量:151次

  • 使用知识图技术实现数据治理2.0

    使用知识图技术实现数据治理2.0

    当您使用Google,从Netflix挑选电影,与Siri或Alexa交谈,或在Facebook上寻找您的侄子时,您将从知识图谱技术中受……查看详情

    发布时间:2019.02.21来源:亿信华辰浏览量:219次

  • 数据质量—并非所有数据都是平等的

    数据质量—并非所有数据都是平等的

    数据质量是调节数据以满足业务用户特定需求的过程。准确性,完整性,一致性,及时性,唯一性和有效性是数据质量的主要衡量标准。……查看详情

    发布时间:2019.04.04来源:亿信华辰浏览量:244次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议