高质量的数据一般包括哪些特征?

发布时间:2022.06.09来源:小亿浏览量:438次标签:数据治理

基于数据决策的前提是数据可靠且相关,数据必须是“真实可信的”,否则“输出将是误导和无效的”。但是企业所收集的数据可能不完全,或者更新不及时。不完全的数据,特别是不准确的数据,可能会带来更危险的决策。但是,所收集的数据来源多样,种类丰富,也很容易出现同一个数据从不同的部门得到的数值不一样的情况。

一、高质量数据的六个特征

1、易用性

是指在指定条件下使用时,软件产品被理解、学习、使用和吸引用户的能力。对于数据来说,我认为数据的易用可以分为两方面:是否被需要、是否被理解。它更多的是和日常沟通、产品需求及规划相关。

是否被需要,意思是当前我们提供的数据,是否真的能够满足用户需要,数据的真正效果有没有达到。比如,我们给用户提供的是它自己品牌的数据,但用户可能更需要的是行业下的数据来做进一步的市场规划。

是否被理解,意思是当前我们对数据的定义是否是行业认可的,是否存在团队与团队之间、用户与开发者之间理解的不一致。

2、功能性

软件提供了用户所需要的功能。二级特性包括:适合性、准确性、互用性、安全性。对数据而言,个人觉得重要的应该属于准确性和安全性。

1)对于准确性,如果一句话概括就是,先数据要有,其次数据要全,后数据要准。

2)对于安全性,尤其是数据安全,命题也很大,这里不再赘述。但需要提的一点是,数据安全涉及到隐私或者差分攻击的预防,也可能是由业务同学考虑的范畴,所以在数据质量模型中不能忽视。

3、效率

是指在规定条件下,相对于所用资源的数量,软件产品是否在规定时间内可提供适当的性能的能力。比如计算倾斜或者计算资源不足导致数据产不出来。效率也是一种根因,终影响的还是功能性。

4、可靠性

在指定条件下使用时,软件产品维持规定的性能水平的能力。比如上游数据无法定时给出,依赖关系的强弱配置不正确,可能影响的就是数据无法定时产出。可靠性是一种根因,终影响的还是功能性。

5、可移植性

是指软件产品从一种环境迁移到另一种环境的能力,也是开发阶段主要考虑的。服务或者网站的可移植性大家了解比较多,数据的可移植性是指什么?我个人认为可移植性强调的更多是跨技术平台的移植,而不是模块间的数据复用。在数据上可能就是数据直接从一个计算平台迁移到另一个计算平台,或者SQL代码从一个计算平台迁移到另一个计算平台。

6、可维护性

是指是在修改或者新增需求时,当前的开发架构是否足够灵活的支持,是开发阶段主要考虑的。比如在数仓开发中,当新上游到来时,如果从下到上全部采用烟囱式开发,那对新增的需求必定是不友好的。如果改为Hub或者集市模式,可能只需要开发接入数据的ETL代码,剩下的完全可以复用,就是提升可维护性的一种手段。

二、提高数据质量的策略

1.建立数据的标准,明确数据的定义。

从整个企业的角度出发,建立统一的数据标准和数据定义,同时,整个企业必须就这个数据标准和数据定义达成共识。

2、建立一个可重复的数据收集、数据修改和数据维护流程。

数据管理面临的两个主要挑战是企业本身的复杂性和身份信息不断变化。这两个客观原因的存在意味着企业的数据质量保证行动永远没有结束之日,因此,企业在制订数据质量的保证措施和数据质量指标时,必须保证这些措施和指标能够不断重复。

3、在数据转化流程中设立多个性能监控点。

在数据发生转换后就与前一时期进行比较,从而对数据质量进行评估。如果此前所采用的数据质量改进方法有助于提高最终用户的满意度,那么,这些中间指标的达标也预示着项目的最终成功。

4、对流程不断进行改善和优化。

通过一个不断改进的流程,持续不断地排除错误、对数据进行整合和标准化,最后达到流程的自动化,从而降低数据质量保证计划的总体开销。

5、把责任落实到人。

对于负责数据的产生、数据的合理化以及对数据进行清理和维护的人员,应该给他们的活动制订明确的指标,这样他们才能真正理解人们到底希望他们达到什么目标。

三、数据质量管理工具有哪些?

亿信华辰自主研发的EsDataClean数据质量管理平台,以数据标准为数据检核依据,以元数据为数据检核对象,通过向导化、可视化等简易操作手段,将质量评估、质量检核、质量整改与质量报告等工作环节进行流程整合,形成完整的数据质量管理闭环。

(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 从数据治理看医疗大数据的发展

    从数据治理看医疗大数据的发展

    《从数据治理看医疗大数据的发展》主要分享医疗大数据中数据治理的重要性,并结合具体案例来讲述大数据治理的框架和应用心得。……查看详情

    发布时间:2019.02.25来源:网络大数据浏览量:20次

  • 主数据管理对生产率改善、风险管理、成本降低等方面均有显著的好处

    主数据管理对生产率改善、风险管理、成本降低等方面均有显著的好处

    什么是MDM(Master Data Management)? 主数据管理是旨在创建和维护权威、可靠、可持续、准确、及时和安全的环境的……查看详情

    发布时间:2020.09.03来源:知乎浏览量:24次

  • 大数据时代监管安全的“智慧大脑”

    大数据时代监管安全的“智慧大脑”

    在这里,监控民警不仅是监狱监管安全防线上的眼睛、耳朵、嘴巴,还是视频监控、固证锁证、指挥联动、应急处突的“智慧”大脑。这里就是监狱监管安……查看详情

    发布时间:2019.03.27来源:亿信华辰浏览量:15次

  • 数据治理加速企业数字化转型

    数据治理加速企业数字化转型

    现在大家都在说一个概念,银行有3.0时代,数据也有3.0时代,3.0时代在不同地域里都有不同的诉求,数字3.0时代是什么?概念并不新,从……查看详情

    发布时间:2019.08.02来源:企业网浏览量:28次

  • 数据治理VS数据安全治理

    数据治理VS数据安全治理

    企业信息化建设是随着企业战略、业务形态、预算等多个方面不断迭代及变化的,所以在建设过程中难免出现阶段鸿沟,跨阶段整合难的现象,当企业以数……查看详情

    发布时间:2020.06.29来源:CSDN浏览量:23次

  • 数据治理在有效合规计划中的作用

    数据治理在有效合规计划中的作用

    有效的合规计划由许多活动部分组成。关键数据来自运行操作所需的各种工具,文档,系统和技术。因此,企业在试图获得任何特定时间的风险状况的完整……查看详情

    发布时间:2018.12.21来源:数据治理浏览量:16次

  • 如何做好大数据的质量管理?

    如何做好大数据的质量管理?

    如今关于大数据的话题非常火热,关于但数据的质量问题也备受人们关注,有很多IT人士开始认为,在大数据的时代,只有对数据进行有效的管理,那么……查看详情

    发布时间:2019.07.26来源:知乎浏览量:47次

  • 知否?知否?如何利用元数据管理数据资产

    知否?知否?如何利用元数据管理数据资产

    如今,各大企业都在关心数据该如何使用,但大数据应用的前提是有高质量的数据。而很多企业内部数据形态多样,标准不统一,大数据应用往往得从数据……查看详情

    发布时间:2020.09.18来源:知乎浏览量:37次

  • 数据治理要处理好四个关系

    数据治理要处理好四个关系

    随着我国大数据战略的不断推进,各类生产生活行为都以数据的形式全景留痕,构建了一个与现实空间平行的“数据空间”,数据治理呼之欲出。要切实发……查看详情

    发布时间:2020.04.02来源:知乎浏览量:22次

  • 数据治理这项服务

    数据治理这项服务

    我们将再次讨论对有形资产和无形资产进行估值的讨论。……查看详情

    发布时间:2019.01.16来源:亿信华辰浏览量:36次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议