询问数据治理教练:数据湖上的数据治理?

发布时间:2019.03.22来源:亿信华辰浏览量:137次标签:数据治理


目前有很多关于数据湖泊及其提供的可能性的兴奋,特别是关于分析和数据可视化。因此,我越来越多地被问到您是否真的需要在数据湖上进行数据治理。毕竟,数据湖是一个集中式存储库,允许您以可扩展的方式存储所有结构化和非结构化数据。

与数据仓库不同,您可以按原样存储数据,而无需先构建数据。这导致许多组织以不受控制和轻率的方式将大量数据“倾倒”到数据湖中。结果是许多人称之为“数据沼泽”,并没有提供他们希望的惊人见解。

所以这个问题的简单答案是肯定的 - 你确实需要数据治理数据湖,以防止它们成为用户不使用的数据沼泽,因为他们不知道那里有什么数据,他们找不到它,或者他们只是不相信它。如果您的数据库上有数据治理,那么您和您的用户可以确信它包含可以找到并正确使用的干净数据。

但我不指望你只是接受我的话; 让我们看一下为什么要对数据库中的数据实施数据治理的一些原因:

数据所有者已达成一致

数据所有者应该批准他们拥有的数据是否适合加载到Data Lake,例如它是否是敏感数据,如果在加载之前是匿名的?

此外,数据湖的用户如果对数据有任何疑问及其可以或不可以使用的内容,则需要知道联系人。

数据定义

虽然数据定义在所有情况下都是可取的,但对数据湖来说它们更为必要。在没有定义的情况下,更多结构化数据库中的数据用户可以使用该数据的上下文来收集数据可能是什么的一些想法。由于数据湖本质上是非结构化的,因此没有这样的背景。

缺少数据定义意味着用户可能无法找到或理解数据,或者使用错误的数据进行分析。因此,数据湖可以提供现成的数据来源,但缺乏对它的理解将意味着它无法快速,轻松地用于响应机会,并且数据湖的使用将局限于一个小的专家用户数量。

数据质量标准

数据质量标准使您能够监控和报告数据湖中保存的数据的质量。虽然在分析大量数据时并不总是需要完美的数据,但用户确实需要了解数据的质量。如果没有标准(以及监控它们的能力),用户将无法知道数据是否足以进行分析。

数据清理

在数据湖内以自动方式完成的任何数据清理需要与数据所有者和数据使用者达成一致,以确保所有此类行为符合定义和标准,并且不会导致数据无法用于某些分析目的 - 例如,将缺席的出生日期默认到约定的日期可能会影响分析,这些分析涉及查看客户的年龄。

数据质量问题解决

虽然在某些情况下数据湖内的自动数据清理可能是适当的,但数据湖中所有已识别的数据质量问题都应通过现有流程进行管理,以确保数据所有者和数据同意最合适的解决方案。消费者。

数据沿袭

记录数据流总是有价值的,但为了满足某些监管要求,(包括EU GDPR)组织需要证明他们知道数据的位置以及数据在整个公司中的流动方式。

关键数据治理可交付成果之一是数据沿袭图。应将数据流中的关键或敏感数据记录在数据流图中。这将通过突出显示数据的来源来增加对数据使用者的理解。此类文档还有助于防止将来将重复数据加载到数据湖中。

我希望我已经说服你,如果你想要一个数据湖来支持你的业务决策,那么就需要数据治理。虽然它可能不需要像您为数据仓库安装的定义和文档那样精细,但需要确保您创建和维护数据湖而不是数据沼泽!

在没有首先理解数据的情况下将数据提取到数据湖中,这只是经常发生的许多数据治理错误之一。您可以在此处下载我的免费报告,找出最常见的错误,更重要的是如何避免错误。

(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 重新思考数据治理

    重新思考数据治理

    随着数据和分析技术的变化,它们带来了新的数据治理挑战。当然,数据治理有各种定义,具体取决于您询问的对象。出于本文的目的,我们将其定义为确……查看详情

    发布时间:2018.11.26来源:数据治理浏览量:172次

  • 数据管理与数据治理的区别

    数据管理与数据治理的区别

    当我们谈数据资产管理时,我们究竟在谈什么?就目前而言,我们谈论得最多的非数据管理和数据治理这两个概念莫属。但是对于这两个概念,两者的准确……查看详情

    发布时间:2018.09.13来源:浏览量:123次

  • 企业数据治理框架

    企业数据治理框架

    大多数公司都采用零碎,随意的方式收集和存储数据。公司采用孤立的方法获取数据并不罕见,每个部门都自己收集数据并设计自己的管理规则。从整体上……查看详情

    发布时间:2019.08.02来源:知乎浏览量:153次

  • 从元数据角度来认识大数据

    从元数据角度来认识大数据

    什么是元数据?在前面的什么是元数据文章中,我们也提到过,元数据是数据的数据,可以帮助数据平台解决“有哪些数据”、“数据存储有多少”、“数……查看详情

    发布时间:2020.02.21来源:知乎浏览量:163次

  • 创新者的破局之路:煤炭行业首个集团级数据治理项目落地

    创新者的破局之路:煤炭行业首个集团级数据治理项目落地

    工业互联网激起能源领域一池春水,新一代信息技术则是其不断发展的加速器。山东能源集团下属临沂矿业集团有限责任公司(以下简称临矿集团)率先在……查看详情

    发布时间:2021.02.04来源:亿信华辰浏览量:380次

  • 数据治理与数据质量有何不同?

    数据治理与数据质量有何不同?

    当我们听到数据管理这些词时,“ 数据质量 ”和“数据治理” 这两个术语出现了很多,它们应该是因为这些是确保组织以最佳方式利用其信息的重要……查看详情

    发布时间:2019.06.25来源:知乎浏览量:268次

  • 数据治理和数据管理推动成功的词汇表和词典

    数据治理和数据管理推动成功的词汇表和词典

    任何数据管理员的噩梦都是运行会议,创建迂腐和无关的业务词汇表或数据词典,最终收集网络粉尘。但是,跳过构建和维护良好的业务术语表或数据字典……查看详情

    发布时间:2018.12.27来源:亿信华辰浏览量:148次

  • 数据科学岗位将在未来5年内重新洗牌,你准备好转型了吗?

    数据科学岗位将在未来5年内重新洗牌,你准备好转型了吗?

    计算器的工作曾经由人来做;网站管理员曾经是热门职业;中层管理人员也曾配备过秘书。技术的迭代变革了一批又一批职业,数据科学家也不会例外…………查看详情

    发布时间:2019.03.07来源:亿信华辰浏览量:136次

  • 数据治理和数据管理推动成功的词汇表和词典

    数据治理和数据管理推动成功的词汇表和词典

    任何数据管理员的噩梦都是运行会议,创建迂腐和无关的业务词汇表或数据词典,最终收集网络粉尘。但是,跳过构建和维护良好的业务术语表或数据字典……查看详情

    发布时间:2019.02.21来源:亿信华辰浏览量:170次

  • 一文透露银行业的数据治理该不该做,又怎么做?

    一文透露银行业的数据治理该不该做,又怎么做?

    小宋最近同学会,一个大学同学就职银行信息科技部门,听说小宋也在一家大数据公司便拉起小宋的手要和她好好掰扯掰扯一下银行业的数据治理了。银行……查看详情

    发布时间:2020.07.29来源:今日头条浏览量:131次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议