一文搞懂数据质量问题及对应的解决办法

发布时间:2019.11.05来源:知乎浏览量:1523次标签:数据治理

常见的数据质量问题包括
1、数据无法匹配
2、数据不可识别
3、数据不一致
4、数据沉余重复
5、实效性不强
6、精度不够

数据质量管理的目标
通过数据分析、数据评估、数据清洗、数据监控、错误预警等内容,解决数据质量问题,使数据的质量得以改善,使其满足数据需求方对数据质量的规则要求。

数据质量评估包括但不止以下6个方面
完整性 Completeness:度量哪些数据丢失了或者哪些数据不可用。
规范性 Conformity:度量哪些数据未按统一格式存储。
一致性 Consistency:度量哪些数据的值在信息含义上是冲突的。
准确性 Accuracy:度量哪些数据和信息是不正确的,或者数据是超期的。
唯一性 Uniqueness:度量哪些数据是重复数据或者数据的哪些属性是重复的。
关联性 Integration:度量哪些关联的数据缺失或者未建立索引。

数据质量评估模型
要素分别为:基础模型、数据质量定义模型、数据质量控制模型、数据质量评价模型、数据质量辅助模型。

1.基础模型。
其他模型必须以基础模型中的计划和标准为依据。基础模型主要是映射、定义数据采集标准,上载分单位的采集计划,同时纳入了约束规则定义规范、控制规则定义规范、模板定义规范。

数据标准:分两部分,一部分是直接映射应用中的标准,例如源数据库标准;另一部分是针对新增应用库和项目库标准的定义规范,包括代码定义标准、数据项定义标准(例如是取英文还是汉语拼音,取几个字符)、值域定义标准等等新增表准的建立规范;
采集计划:采集单位的每月上载的日度、月度、年度的采集计划;
约束规则定义规范:主要描述质量定义模型中的语法构成;
控制规则定义规范:针对服务器负载和采集表的及时性,要求建立的后台执行过程的控制方式的使用说明;

2.数据质量定义模型。
以基础模型为前提对数据质量的统一规范的定义,是数据质量分析评价的依据和基础。数据质量定义模型可以使用质量特性描述。数据质量特性归纳为数据的一致性、数据的准确性、数据的完整性、数据的及时性4个关键特性。
(1)一致性的量化评价指标:字段一致率、表间字段一致率、表间记录一致率。
(2)准确性的量化评价指标:准确率、差错率、问题字段个数、问题记录覆盖率
(3)及时性的量化评价指标:采集项目及时率;单位入库及时率
(4)完整性的量化评价指标:字段缺失数、缺失记录覆盖率、计划完成率。

3.数据质量控制模型。
数据质量控制模型以数据质量定义模型为基础,按照定义的检查范围和时间以自动或手工方式完成对数据质量的检查工作。在质量控制过程中违反了数据质量定义的,视为数据质量问题,数据质量问题直接通过数据质量的关键特性和指标反映出来。数据质量控制模型的控制内容表现在:对数据检查对象、数据检查频度、数据检查时间、数据检查方式等方面进行控制。
(1)数据检查对象:是指根据采集计划设定需要检查的用户、专业数据表、数据库实体。
(2)数据检查频度;是指根据数据表的采集计划和实际发生的频度,设定存储过程的检查执行频率。
(3)数据检查时间:是指根据每日生产应用的密集时间以及数据发生到采集入库的密集时间,综合设定一个检查开始执行的时刻。
(4)数据检查方式:是指执行检查过程的方式可以由后台过程自动控制,每间隔2小时自动检查一次;也可以由人工干预手动检查,任意时刻都可以执行检查(当然尽量选择数据库流量比较低的时候)。

4.数据质量评价模型。
数据质量评价模型,是以数据质量定义模型为依据,由数据质量控制模型操控执行,根据反馈的质量检查结果表,评议出数据质量的关键指标,实现对数据质量的量化诊断和评价。

数据质量分析评价模型功能核心是,通过对基础模型中的采集计划和质量定义模型中的约束规则的处理,由控制模型调用可以实现检查分析的后台存储过程在实体库中执行检查,形成查询结果,再由分析程序进行分析、计算、分类、汇总,生成反映采集计划完成情况和数据质量量化指标的结果,存储到分析结果表中,从前台调用这个分析结果表,就可以生成一份详尽的反映数据质量问题各类量化指标的数据质量分析评估报告,展现所评估实体库的数据入库的及时率、数据上报的完整性、数据采集的一致性、数据入库的准确率。

5.数据质量辅助管理模型
数据质量辅助管理包括报告模版管理、权限管理、数据库资源占用情况等等。

下面介绍一款数据质量管理平台来解决数据质量问题
EsDataClean数据质量管理平台是亿信华辰自主研发的数据质量管理平台,提供了业界领先的质量规则管理方法、质量评估方法、零编码质检规则、跨数据源比对、质量分析报告、数据质量整改、质量绩效评估等主要功能,以数据标准为数据检核依据,以元数据为数据检核对象,通过向导化、可视化等简易操作手段,将质量评估、质量检核、质量整改与质量报告等工作环节进行流程整合,形成完整的数据质量管理闭环。

亿信数据质量管理平台从找到问题数据开始,控制数据质量,贯彻始终,全面提升数据的完整性、规范性、及时性、一致性,减少因数据不可靠导致的决策偏差和损失。
(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 银行数据治理的核心问题

    银行数据治理的核心问题

    银行一直掌握着大量关于客户的数据,数据汇总,存储和分析的持续进步意味着收集的数据提供了不可估量的价值和机会。 ……查看详情

    发布时间:2019.08.14来源:简书浏览量:193次

  • 电力数据治理方案如何实施?要注意什么?

    电力数据治理方案如何实施?要注意什么?

    电力行业数据治理痛点,包括整体架构缺乏统一的数据中心,孤岛现象严重;数据治理方面缺乏统一的数据标准和数据质量关系;电力数据治理方案如何实……查看详情

    发布时间:2021.04.09来源:亿信数据治理研究院浏览量:734次

  • 案例研究:亚利桑那州实施全州数据治理模型

    案例研究:亚利桑那州实施全州数据治理模型

    亚利桑那州战略企业技术办公室(ADOA-ASET) - 亚利桑那州管理局状态数据管理架构师Jeff Wolkove和能力成熟度模型研究所……查看详情

    发布时间:2018.12.06来源:Amber Lee Dennis浏览量:174次

  • 数据交换平台是数据中心与其它应用系统沟通的桥梁

    数据交换平台是数据中心与其它应用系统沟通的桥梁

    数据交换平台是数据中心与其它应用系统沟通的桥梁,是进行数据交换的枢纽站。数据交换平台负责从各个业务系统采集数据,对数据进行清洗与整合,按……查看详情

    发布时间:2020.08.10来源:知乎浏览量:131次

  • 数据治理带给企业的6个惊喜

    数据治理带给企业的6个惊喜

    数据治理是GDPR的强制要求实际是一把双刃剑。一方面,法律法规的强制规定能立即引起客户对数据治理的重视。另一方面,为了达到合规,很多企业……查看详情

    发布时间:2019.08.07来源:CSDN浏览量:138次

  • 建设大数据平台,从“治理”数据谈起

    建设大数据平台,从“治理”数据谈起

    大数据时代还需要数据治理吗?数据平台发展过程中随处可见的数据问题大数据不是凭空而来,1981年第一个数据仓库诞生,到现在已经有了近40年……查看详情

    发布时间:2019.01.11来源:亿信华辰浏览量:169次

  • 以元数据为基础的数据治理策略

    以元数据为基础的数据治理策略

    数据是公司资产。为了更快地做出决策,用户必须信任它。数据治理打破了整个企业中不同系统的数据孤岛,并建立了一套流程,标准和策略,以使企业范……查看详情

    发布时间:2019.09.04来源:知乎浏览量:261次

  • 数据标准化的难题

    数据标准化的难题

    数据标准好制定,但是数据标准落地相对就困难多了。国内的数据标准化工作发展了那么多年,各个行业,各个组织都在建设自己的数据标准,但是你很少……查看详情

    发布时间:2019.12.20来源:知乎浏览量:167次

  • 大数据是大问题?组织需要为数据管理负责

    大数据是大问题?组织需要为数据管理负责

    如果数据收集在2018年让人们明白一件事的话,那就是使用数据的公司与商业模式依赖数据利用的公司之间存在一条明显而深刻的界线。由于剑桥分析……查看详情

    发布时间:2019.04.09来源:亿信华辰浏览量:143次

  • 数据治理加速企业数字化转型

    数据治理加速企业数字化转型

    现在大家都在说一个概念,银行有3.0时代,数据也有3.0时代,3.0时代在不同地域里都有不同的诉求,数字3.0时代是什么?概念并不新,从……查看详情

    发布时间:2019.08.02来源:企业网浏览量:144次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议