如何保证数据质量?针对性业务方面的数据质量如何提升
发布时间:2019.11.15来源:知乎浏览量:89次标签:数据治理
每个企业都会存在数据质量问题。所有人都知道数据分析、数据挖掘的80%工作量都在数据处理上。但是与数据分析、数据挖掘红得发紫的热度相比,数据处理显得冷清多了。
业务数据的生命周期说起。
数据的流转分为四个步骤:数据的产生、存储、加工和使用。
数据质量在这四个环节均会产生。所以需要有不同的手段。
在各个环节控制质量的最开始,我们需要对数据质量管理进行标准定义处理。即对元数据进行梳理,并按照元数据管理理念,对各个环节的数据进行管控。在此只探讨结构化数据,非结构化数据可以结构化之后再以此法继续。
0、元数据管理
元数据管理简单来说,就是建立一套标准的指标(度量)、口径(维度)等体系,建立相关的单位、分组等支撑信息。目的是保证各环节的数据一致性和统一性。
1、数据产生阶段的质量管理手段
方法:控制输入
尽可能的使用非开放式的输入手段,如下拉菜单、单复选框、时间控件、标签(支持自定义学习型)等。必须开放的输入部分,进行必要的校验。
互联网行业的log数据质量之高,简直不需要进行此步骤的管理!可以说互联网的log分析直接推动了大数据分析发展的进程。
2、数据存储阶段的质量管理手段
方法:数据统一在数据结构设计时,就应该按照标准对相同含义的字段统一命名、格式、精度等,排除数据的歧义。
3、数据加工阶段的质量管理手段
方法:数据清洗数据加工阶段的目的非常明确,但数据问题繁多,不同的问题需要使用不同的手段处理,详细操作手段见另外一个回答:数据挖掘中常用的数据清洗方法有哪些?
4、数据使用阶段的质量管理手段
数据使用阶段还需要质量管理?当然!无论是在数据分析还是数据挖掘之后,结果自然是要保存下来的,此时的数据仍然要按照标准,进行规范的管理,无论是存储结果的表名,还是字段、格式等。此外,在数据分析、挖掘的时候,也会有新的数据产生,此时依然需要进行标准化之后进行统一管理。
5、数据质量的持续监控和完善
数据质量管理并不是一个流程做完就结束了。如同戴明环一样,数据质量同样要建立一个环,不断发现问题,弥补问题。在各个环节新发现的各种问题,定期进行分析,确定应对方案,并加以改进。质量乃数据之根本,没有质量,数据便不可信,在此之上的数据分析、数据挖掘更是一纸空谈,甚至是大谬论。
工欲善其事,必先利其器,检测之前咱们有必要对检测工具有基本的认知:
亿信数据质量管理平台提供从标准定义、质量监控、绩效评估、质量分析、质量报告、重大问题及时告警、流程整改发起、系统管理等数据质量管理全过程的功能。通过事先定义好的规则、调度时间、工作流程,自动完成数据的质量检查,极大的减少人力的投入和过程干预,提升效率,减少误差。 同时遇到重大问题能够及时警告,对质量检查的结果提供多方式(界面、邮件、短信)告警,让用户及时了解到系统检查结果,避免重大问题的延误。
-
数据治理的十五个最佳实践
数据治理研究所(DGI)认为,它是一套切实可行的框架,帮助任何组织的各种数据利益相关方识别并满足其信息需求。DGI认为,企业不仅需要管理……查看详情发布时间:2020.07.31来源:知乎浏览量:76次
-
经济社会数字化转型的特征事实
联合国、世界贸易组织、经济合作和发展组织、国际货币基金组织等先后于近期发表研究报告,从整体上描述了经济社会数字化转型的特征事实。概括起来……查看详情发布时间:2020.10.31来源:知乎浏览量:60次
-
四说大数据时代“神话”:从大数据到深数据
为国内最大的电商平台之一,苏宁每天要处理数量巨大的数据。为了更快速高效地处理这些数据,苏宁调度平台采取了哪些措施呢?……查看详情发布时间:2019.02.14来源:亿信华辰浏览量:77次
-
什么是数据治理?政务数据治理与数据治理有什么不同?
政务数据治理,其实是应用了广义数据治理的其中一部分内容,其因管理和历史因素,在战略规划、组织架构、制度、流程和评估层面在很多时候无法达到……查看详情发布时间:2021.04.09来源:亿信数据治理研究院浏览量:106次
-
银行业数据治理还面临着四方面的挑战
一是数据整合度不高。银行内部数据虽多,涉及各个业务条线、各个部门,但未经系统化的治理,数据分布零散化,搜集整合存在错配,未能实现大数据集……查看详情发布时间:2019.11.29来源:知乎浏览量:73次
-
谈谈工业企业数据治理建设的趋势
工业企业数据环境复杂,数据类型多、产生速度快、数据量大、数据质量不高、数据人才匮乏,因此如何发挥和挖掘数据要素的价值成为当代企业关注的话……查看详情发布时间:2022.06.28来源:互联网浏览量:139次
-
应用程序组合管理:优化您的投资组合
过程的第四个也是最后一个阶段是优化您的投资组合,在这里您必须开始检查其他应用程序和项目之间的依赖关系。您还必须在每个应用程序中添加成本和……查看详情发布时间:2019.02.19来源:亿信华辰浏览量:77次
-
数据治理的3W1H:治什么?谁来治?怎么治?选哪个?
数据治理是一个通过一系列信息相关的过程来实现决策权和职责分工的系统,这些过程按照达成共识的模型来执行,该模型描述了谁能根据什么信息,在什……查看详情发布时间:2021.04.23来源:浏览量:108次
-
做好数据治理,助力政府治理体系和治理能力现代化
而互联网、大数据、人工智能等技术手段应用的基础是数据。由此,我们看出围绕数据生产要素,构建科学的数据治理规则体系,是政府治理体系和治理能……查看详情发布时间:2020.04.09来源:中国电子报浏览量:61次