高质量的数据一般包括哪些特征?
发布时间:2022.06.09来源:小亿浏览量:2317次标签:数据治理
基于数据决策的前提是数据可靠且相关,数据必须是“真实可信的”,否则“输出将是误导和无效的”。但是企业所收集的数据可能不完全,或者更新不及时。不完全的数据,特别是不准确的数据,可能会带来更危险的决策。但是,所收集的数据来源多样,种类丰富,也很容易出现同一个数据从不同的部门得到的数值不一样的情况。
一、高质量数据的六个特征
1、易用性
是指在指定条件下使用时,软件产品被理解、学习、使用和吸引用户的能力。对于数据来说,我认为数据的易用可以分为两方面:是否被需要、是否被理解。它更多的是和日常沟通、产品需求及规划相关。
是否被需要,意思是当前我们提供的数据,是否真的能够满足用户需要,数据的真正效果有没有达到。比如,我们给用户提供的是它自己品牌的数据,但用户可能更需要的是行业下的数据来做进一步的市场规划。
是否被理解,意思是当前我们对数据的定义是否是行业认可的,是否存在团队与团队之间、用户与开发者之间理解的不一致。
2、功能性
软件提供了用户所需要的功能。二级特性包括:适合性、准确性、互用性、安全性。对数据而言,个人觉得重要的应该属于准确性和安全性。
1)对于准确性,如果一句话概括就是,先数据要有,其次数据要全,后数据要准。
2)对于安全性,尤其是数据安全,命题也很大,这里不再赘述。但需要提的一点是,数据安全涉及到隐私或者差分攻击的预防,也可能是由业务同学考虑的范畴,所以在数据质量模型中不能忽视。
3、效率
是指在规定条件下,相对于所用资源的数量,软件产品是否在规定时间内可提供适当的性能的能力。比如计算倾斜或者计算资源不足导致数据产不出来。效率也是一种根因,终影响的还是功能性。
4、可靠性
在指定条件下使用时,软件产品维持规定的性能水平的能力。比如上游数据无法定时给出,依赖关系的强弱配置不正确,可能影响的就是数据无法定时产出。可靠性是一种根因,终影响的还是功能性。
5、可移植性
是指软件产品从一种环境迁移到另一种环境的能力,也是开发阶段主要考虑的。服务或者网站的可移植性大家了解比较多,数据的可移植性是指什么?我个人认为可移植性强调的更多是跨技术平台的移植,而不是模块间的数据复用。在数据上可能就是数据直接从一个计算平台迁移到另一个计算平台,或者SQL代码从一个计算平台迁移到另一个计算平台。
6、可维护性
是指是在修改或者新增需求时,当前的开发架构是否足够灵活的支持,是开发阶段主要考虑的。比如在数仓开发中,当新上游到来时,如果从下到上全部采用烟囱式开发,那对新增的需求必定是不友好的。如果改为Hub或者集市模式,可能只需要开发接入数据的ETL代码,剩下的完全可以复用,就是提升可维护性的一种手段。
二、提高数据质量的策略
1.建立数据的标准,明确数据的定义。
从整个企业的角度出发,建立统一的数据标准和数据定义,同时,整个企业必须就这个数据标准和数据定义达成共识。
2、建立一个可重复的数据收集、数据修改和数据维护流程。
数据管理面临的两个主要挑战是企业本身的复杂性和身份信息不断变化。这两个客观原因的存在意味着企业的数据质量保证行动永远没有结束之日,因此,企业在制订数据质量的保证措施和数据质量指标时,必须保证这些措施和指标能够不断重复。
3、在数据转化流程中设立多个性能监控点。
在数据发生转换后就与前一时期进行比较,从而对数据质量进行评估。如果此前所采用的数据质量改进方法有助于提高最终用户的满意度,那么,这些中间指标的达标也预示着项目的最终成功。
4、对流程不断进行改善和优化。
通过一个不断改进的流程,持续不断地排除错误、对数据进行整合和标准化,最后达到流程的自动化,从而降低数据质量保证计划的总体开销。
5、把责任落实到人。
对于负责数据的产生、数据的合理化以及对数据进行清理和维护的人员,应该给他们的活动制订明确的指标,这样他们才能真正理解人们到底希望他们达到什么目标。
三、数据质量管理工具有哪些?
亿信华辰自主研发的EsDataClean数据质量管理平台,以数据标准为数据检核依据,以元数据为数据检核对象,通过向导化、可视化等简易操作手段,将质量评估、质量检核、质量整改与质量报告等工作环节进行流程整合,形成完整的数据质量管理闭环。
-
数据治理工具那么多,如何选择适合自己企业的呢?
随着互联网技术的不断发展,人们获取、收集信息的渠道也越来越多样化,各种搜索引擎、通讯工具、社交网站等普及应用,使得数据信息呈迅速增长趋势……查看详情发布时间:2019.07.17来源:知乎浏览量:81次
-
数据治理:医院要平衡的4个考虑因素
电子健康倡议基金会,一个专注于质量和安全改进的医疗保健合作,以及LexisNexis Risk Solutions的医疗保健部门,于8月……查看详情发布时间:2018.11.27来源:Jessica Kim Cohen浏览量:51次
-
数据治理的概念、难点和最佳实践方法
数字化转型的目的和核心是数据赋能业务,通过智能数据归一、数据统一治理与服务、数据实体化融合、数据资产化的方式,帮助实现业务转型、创新和增……查看详情发布时间:2021.08.06来源:亿信华辰,数据治理的实践方法浏览量:68次
-
企业构建数据中台是否存在一个量化或判断的标准?
对这个问题有几种解读,第一种解读是说企业是否要构建自己的数据中台,这个问题有没有标准?以这个问题来讲的话,我们认为所有的企业它都需要数据……查看详情发布时间:2021.01.23来源:知乎浏览量:85次
-
2019年的数据管理趋势:治理,DataOps,云
GDPR的数据治理要求,对AI驱动的分析的追求以及云计算的拉动为2018年数据管理和大数据团队的努力奠定了基调。这些和相关的数据管理趋势……查看详情发布时间:2019.01.02来源:亿信华辰浏览量:47次
-
如何保证数据质量、数据治理:让数据质量更好
数据分析、数据挖掘等各种数据应用都离不开数据质量,数据质量的重要性不用多表。今天来浅谈如何通过数据治理,来保证数据质量。数据的生命周期往……查看详情发布时间:2019.09.12来源:知乎浏览量:98次
-
5可以通过数据治理解决的挑战-使用数据治理克服常见的业务障碍
在快速发展的技术,大数据和高级分析的时代,数据治理在每个组织中都发挥着至关重要的作用,无论规模大小或行业如何。从定义元数据管理指南,到解……查看详情发布时间:2018.11.13来源:CHRIS REED浏览量:33次
-
五大数据治理用例和驱动因素
随着数据应用程序的增长,数据治理用例也在增长。而传统的,仅限IT的数据治理方法Data Governance 1.0已经为协作的企业级数……查看详情发布时间:2019.01.25来源:亿信华辰浏览量:103次
-
谈谈工业企业数据治理建设的趋势
工业企业数据环境复杂,数据类型多、产生速度快、数据量大、数据质量不高、数据人才匮乏,因此如何发挥和挖掘数据要素的价值成为当代企业关注的话……查看详情发布时间:2022.06.28来源:互联网浏览量:144次