数据质量是什么?控制数据质量的三个方法都在这

发布时间:2021.08.19来源:亿信华辰数据治理知识库浏览量:122次标签:数据治理

数据质量主要关注数据的准确性水平,但也包括其他质量,例如可访问性和有用性。有些数据根本不准确,这反过来又会促进错误的决策。一些组织提倡事实核查和数据治理,并因此做出给他们带来优势的决策。确保数据准确的目的是支持短期(实时客户响应)和长期(商业智能)的良好决策。当数据正确地代表现实时,它被认为是高质量的。


考虑到这一点,高管和决策者必须考虑其数据的质量,潜在的不一致可能会导致不可靠的商业智能洞察。例如,在使用预测分析时,预测应该基于准确和完整的数据。当数据不准确和不完整时,预测的价值就很有限,错误的假设可能会严重损害组织。需要考虑的问题数据质量包括:


无障碍

完整性

客观性

可读性

及时性

唯一性

用处

准确性

数据完整性.jpg

一些组织进行重要的研究,建立良好的数据质量可能包括为研究方法制定特定的协议。这些行为将成为良好数据治理计划的一部分。 


数据质量的起源


1865 年,Richard Millar Devens 教授建立了术语“商业智能”(缩写为 BI)在他的商业和商业轶事百科全书。他用这个词来描述 Henry Furnese 爵士如何收集信息,然后在他的竞争对手之前采取行动,以增加他的利润。


很久以后,在 1958 年,Hans Peter Luhn 写了一篇文章,描述了通过技术收集 BI 的潜力。现代版的商业智能使用技术来收集和分析数据,并将其转化为有用的信息。然后在“比赛前”使用此信息以提供显着优势。从本质上讲,现代商业信息专注于使用技术快速有效地做出明智的决策。


1968 年,只有具备极其专业技能的人才能够将可用数据转化为有用的信息。当时,从多个来源获取的数据通常会存储在孤岛中。研究此类数据通常涉及处理零散、脱节的信息,并产生有问题的报告。Edgar Codd 意识到了这个问题,并在 1970 年提出了一个解决方案,改变了人们对数据库的看法。他的解决方案建议创建一个“关系数据库模型”,该模型获得了极大的欢迎,并在全球范围内被采用。


数据库管理系统


决策支持系统 (DSS) 被描述为最早的 数据库管理系统. 许多历史学家认为现代商业智能是建立在 DSS 数据库上的。在 1980 年代,BI 供应商的数量大幅增长。商界人士已经发现了大数据和现代商业智能的价值。在此期间创建和开发了各种各样的工具,专注于以更有效和更简单的方式访问和组织数据的目标。执行信息系统、OLAP 和数据仓库是所开发的一些工具的示例。数据质量的重要性有助于激发关系数据库的发展。


数据质量即服务 (DQaaS)


1986 年,在廉价的数据存储出现之前,维护着巨大的大型计算机,其中包含用于交付服务的姓名和地址数据。这允许邮件被路由到其正确的目的地。这些大型机旨在纠正姓名和地址中常见的拼写错误和错误,同时还跟踪死亡、搬家、入狱、离婚或结婚的客户。


这也是政府机构向“服务公司”提供邮政数据以便与 NCOA(国家地址变更)登记处进行交叉参考的时候。这一决定为几家大公司节省了数百万美元,因为不再需要手动更正客户数据,并且避免了浪费的邮资成本。这种提高数据准确性/质量的早期努力最初是作为一项服务出售的。


在 80 年代末和 1990 年代初,许多组织开始意识到数据和数据挖掘的价值。CEO 和决策者越来越依赖数据分析。此外,业务流程从不同部门为不同目的创建了越来越多的数据。然后,最重要的是,互联网开始流行。


在 1990 年代,互联网变得非常流行,大公司拥有的关系数据库跟不上他们可用的海量数据流。在此期间出现的各种数据类型和非关系数据使这些问题更加复杂。非关系型数据库,通常称为无SQL,作为解决方案出现。NoSQL 数据库可以快速转换各种数据类型,并通过消除“有组织的”存储并提供更大的灵活性来避免 SQL 数据库的僵化。


非关系型数据库是为了响应互联网数据、处理非结构化数据的需求以及对更快处理的渴望而开发的。NoSQL 模型基于分布式数据库系统,使用多台计算机。非关系系统速度更快,使用临时方法组织数据,并处理大量不同的数据类型。对于一般研究,在处理大型非结构化数据集时,NoSQL 是更好的选择(大数据) 而不是关系数据库,因为它们的速度和灵活性。“大数据”一词于 2005 年正式使用。


控制数据质量的三个方法


目前有三种基本方法可以实现真正的数据质量。它们有助于提供可用于收集有用的商业情报和做出正确决策的准确数据。这些开发和维护数据质量的方法是:


1、数据剖析是评估数据完整性和状况的过程。它通常被认为是控制组织数据质量的重要第一步。此过程强调数据的透明度,包括元数据和来源。 

2、数据管理 管理从管理到退役的数据生命周期。数据管理定义和维护数据模型、记录数据、清理数据并定义其规则和策略。这些步骤有助于向应用程序和最终用户提供高质量的数据。

3、数据准备 涉及清理、标准化、丰富和/或转换数据。提供自助访问的数据准备工具现在被用来完成过去由数据专业人员完成的任务。


数据治理


到 2010 年,数据量和复杂性不断扩大,相应地,企业在使用数据方面变得更加复杂。他们开发了组合、操作、存储和呈现信息的方法。这是开始数据治理.


有远见的公司组建了治理组织来维护业务数据,并开发协作流程来使用业务所需的数据。但更重要的是,他们针对数据质量标准、数据模型和数据安全开发了一种“以政策为中心的方法”。这些早期的团队忽视了越来越大和越来越复杂的存储库的愿景,而专注于定义、实施和强制执行数据智能程序的策略。一个过程使得在多个地方存储相同类型的数据是可以接受的,前提是它遵守相同的策略。因此,企业对其数据内容承担了越来越多的责任。数据现在被广泛认为是宝贵的企业资产。


数据治理涵盖数据在可用性、完整性、可用性和安全性方面的整体管理。一个好的数据治理计划组织了一个由消息灵通的个人组成的管理机构,并针对各种情况制定了应对措施。必须明确定义数据治理行为,以有效解释数据将如何处理、存储、备份以及如何防止错误、盗窃和攻击。必须制定程序来定义如何使用数据以及由哪些人员使用。此外,必须实施一套控制和审计程序,以确保持续遵守内部数据政策和外部政府法规,并确保在多个企业应用程序中以一致的方式使用数据。机器学习已成为实现数据治理的流行方式。


数据治理反映了组织的战略,数据治理团队组织起来以在处理数据时实施新的政策和程序。这些团队可以由数据经理和业务经理以及使用组织服务的客户组成。致力于促进有关数据治理流程的最佳实践的协会包括达马国际 (数据管理协会), 数据治理研究所,以及 数据治理专业组织.


数据质量工具


数据质量工具通常会为一种情况提供解决方案,但从长远来看不会解决多个问题。寻找和使用数据质量工具的正确组合对于最大限度地提高数据质量和组织的整体效率非常重要。


寻找适当的数据质量工具可能是一个挑战。选择智能和工作流驱动的数据质量工具,最好带有嵌入式质量控制,可促进“可扩展”的信任系统。普遍的共识是,单一的、独立的数据质量工具不会提供最佳结果。


如果您有兴趣,可体验睿治数据质量工具https://www.esenruizhi.com/products/esdataclean.html


(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议