提高数据质量的方法

发布时间:2019.11.15来源:知乎浏览量:150次标签:数据治理

1、明确业务需求并从需求开始控制数据质量
要想真正解决数据质量问题,应该从需求开始,企业往往在定义清楚业务需求后忽略对数据质量的控制,而只对已经产生的数据做检查,然后再将错误数据剔除,这种方法治标不治本,不能从根本上解决问题。

企业需要将数据质量的控制从需求开始集成到分析人员、模型设计人员与开发人员的工作环境中,让大家在日常的工作环境中自动控制数据质量,在数据的全生命周期中控制数据质量。

2、建立数据质量管理机制
从业务出发做问题定义,由工具自动、及时发现问题,明确问题责任人,通过邮件、短信等方式进行通知,保证问题及时通知到责任人。跟踪问题整改进度,保证数据质量问题全过程的管理。

(1)探查数据内容、结构和异常通过探查,可以识别数据的优势和弱势,帮助企业确定业务实施计划。一个关键目标就是明确指出数据错误和问题,例如将会给业务流程带来威胁的不一致和冗余。

(2)建立数据质量度量并明确目标企业需建立一个共同的平台并完善度量标准,用户可以在数据质量记分卡中跟踪度量标准的达标情况,并通过电子邮件发送URL来与相关人员随时进行共享。

(3)设计和实施数据质量业务规则明确企业的数据质量规则,即可重复使用的业务逻辑,管理如何清洗数据和解析用于支持目标应用字段和数据。业务部门和IT部门通过使用基于角色的功能,一同设计、测试、完善和实施数据质量业务规则,以达成最好的结果。

(4)将数据质量规则构建到数据集成过程中

数据质量服务由可集中管理、独立于应用程序并可重复使用的业务规则构成,可用来执行探查、清洗、标准化、名称与地址匹配以及监测。

在企业大数据治理过程中,对于大数据生产线中的每个集成点,都需要做数据质量的检查,严格控制输入数据的质量。比如在数据采集过程,集成过程,分析过程等等都需要做检查。

但在大数据环境中,每个集成点都会有海量数据量流过,把数据逐条检查这种传统方式是行不通的,应该采用抽样的方式,对一批数据做数据质量的检查,来确定这批数据是否满足一定的质量区间,再决定是否需要对这批数据做详细的检查。

(5)检查异常并完善规则

在执行数据质量流程后,大多数记录将会被清洗和标准化,并达到企业所设定的数据质量目标。然而,无可避免,仍会存在一些没有被清洗的劣质数据,此时则需要完善控制数据质量的业务规则。

目前企业内的数据主要分为外部数据和内部数据,大数据时代到来让各企业广泛采购第三方数据,第三方数据的质量逐渐成为决定企业数据质量的关键因素。

对于企业的内部数据,可以通过业务梳理直接获得质量检核规则。但是对于外部第三方数据,需要先对这些数据进行采样,并应用关联算法自动发现其中的质量检核规则,并将这些检核规则持续积累,形成外部数据的检核规则库。

(6)对照目标,监测数据质量

数据质量控制不应为一次性的“边设边忘”活动。相对目标和在整个业务应用中持续监测和管理数据质量对于保持和改进高水平的数据质量性能而言是至关重要的。可选择仪表板和报告进行监测。
(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 数据治理领军企业在中国

    数据治理领军企业在中国

    中国在大数据领域做得不错。中国人口多,数据就多,数据多就会呼唤更先进的数据处理技术,呼唤更多的数据应用场景,这是中国在数据方面得天独厚的……查看详情

    发布时间:2020.07.31来源:知乎浏览量:97次

  • 大数据治理需要解决哪些问题?

    大数据治理需要解决哪些问题?

    随着云时代的来临,大数据也吸引了越来越多的关注。大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大……查看详情

    发布时间:2018.10.15来源:数邦客浏览量:131次

  • 什么是数据集成?

    什么是数据集成?

    数据集成是将来自不同来源的数据组合到统一视图中的过程:从摄取,清理,映射和转换到目标接收器,最后使数据对访问它的人更具可操作性和价值。 ……查看详情

    发布时间:2018.12.20来源:数据治理浏览量:115次

  • 数据治理与数据管理:有什么区别?

    数据治理与数据管理:有什么区别?

    如果今天有任何定义成功企业的东西,那就是公司数据的成功理解,使用和策略。了解您的数据并确定如何实施它会带来一系列问题,包括用户和利益相关……查看详情

    发布时间:2018.11.13来源:克里希基德浏览量:121次

  • 数据治理加速企业数字化转型

    数据治理加速企业数字化转型

    现在大家都在说一个概念,银行有3.0时代,数据也有3.0时代,3.0时代在不同地域里都有不同的诉求,数字3.0时代是什么?概念并不新,从……查看详情

    发布时间:2019.08.02来源:企业网浏览量:112次

  • 数据治理的7大误区

    数据治理的7大误区

    大数据时代,数据成为社会和组织的宝贵资产,像工业时代的石油和电力一样驱动万物,然而如果石油的杂质太多,电流的电压不稳,数据的价值岂不是大……查看详情

    发布时间:2018.11.30来源:51cto浏览量:125次

  • 数据囤积日益增长的威胁

    数据囤积日益增长的威胁

    在数据丰富的环境中生活和工作的缺点之一是希望将所有最后的位和字节松开以备将来使用。得益于Amazon S3和Hadoop等廉价存储系统,……查看详情

    发布时间:2019.02.28来源:亿信华辰浏览量:114次

  • 数据治理治的是“数据”吗?

    数据治理治的是“数据”吗?

    数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。其实在我看来,……查看详情

    发布时间:2020.07.07来源:知乎浏览量:107次

  • 企业为什么要实施数据治理项目

    企业为什么要实施数据治理项目

    目前业界并没有对其概念的统一标准定义,我们可以这么认为,数据治理从本质上看就是对一个机构(企业或政府部门)的数据从收集融合到分析管理和利……查看详情

    发布时间:2020.04.09来源:知乎浏览量:112次

  • 一分钟了解企业主数据系统建设,成功化数据为价值。

    一分钟了解企业主数据系统建设,成功化数据为价值。

    “在数据治理的相关资料中,提到了一个概念,叫‘主数据’,究竟什么是主数据,它的收益又在哪?”之所以具有代表性,是因为这是一个典型的企业人……查看详情

    发布时间:2020.08.28来源:知乎浏览量:149次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议