数据湖中的数据管理与治理

发布时间:2019.03.05来源:亿信华辰浏览量:156次标签:数据治理


数据湖是存储所有数据的中心位置,无论源或格式如何。它通常使用Hadoop构建。数据可以是结构化的或非结构化的。您可以使用各种存储,分析和处理工具快速提取价值,以便为关键的组织决策提供信息。

由于欢迎所有数据,因此数据湖是传统企业数据仓库的有力替代或补充。此外,随着组织转向基于云的应用程序和物联网,数据湖是一个主要选择。

在早期用例中,组织经常将数据加载到数据湖中而不尝试对其进行管理。随着数据湖泊的成熟并对组织变得更具战略性,将数据转储到数据湖中并希望获得最佳效果已经不够了。

数据湖具有灵活性,可扩展性和成本效益。但是,如果您添加数据管理和治理功能(如数据质量,元数据管理,安全性,转换以及分组或组合数据的能力),它还可以拥有传统EDW的大部分内容。如果管理得当,数据湖可以改进现有的数据计划并实现新的计划。您的组织可以在构建数据湖时选择以下四种路径之一:

选项1:稍后解决治理问题

第一种选择是忽略治理并将数据自由加载到湖中。之后,当您需要从数据中发现见解时,您将不得不找到清理数据的工具,例如机器学习技术。这种方法存在实际风险。即便是最智能的推理引擎也需要在湖中的大量数据中启动。不可避免地,数据湖的某些部分将被忽略,变得停滞,孤立,并包含结构如此之少的数据,即使是最聪明的自动化工具 - 或人类分析师 - 也不知道从哪里开始。

选项2:调整现有的传统工具

您可以利用最初为EDW设计的应用程序和流程。可以使用软件工具执行在EDW中导入干净数据时使用的ETL过程。您可以使用这些工具将数据导入湖中,但这样做成本很高,并且只能解决您需要的部分管理和治理功能。另一个缺点是ETL发生在Hadoop集群之外,减慢了操作并增加了成本,因为每个查询都必须将数据移出集群。

选项3:编写自定义脚本

使用第三个选项,您可以使用自定义脚本构建工作流,该脚本连接流程,应用程序,质量检查和数据转换以满足治理需求。这是一个受欢迎的选择,但是最不可靠和最耗费资源。您需要熟练掌握Hadoop及其生态系统的高技能分析师来利用开源工具,他们需要编写脚本来连接各个部分。随着您在湖中成长,这个过程变得更加耗时且成本更高,因为您必须不断修改复杂的代码和工作流程。

选项4:部署集成数据湖管理平台

第四种选择是整合数据湖泊管理平台,该平台专门用于摄取和管理数据湖中的大量不同数据集。Zaloni的Bedrock提供此功能。它允许您对数据进行编目,利用元数据,并支持确保数据质量,数据沿袭和自动化工作流程的持续过程。这种方法正在成为数据湖管理和治理的最佳解决方案。

当您转换到数据湖时,选择完全集成的数据湖泊管理平台将使您对数据充满信心,并对其进行扩展以包含越来越多的用户和有利于业务的用例。毕竟,这就是数据的用途,通知和改善整个组织的决策流程,并以新的和令人兴奋的方式帮助您的业务增长。


(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 数据资产管理的发展趋势

    数据资产管理的发展趋势

    随着数据资产管理生态系统的不断发展,现有的实践体系也在迅速发展,可以从数据对象、数据采集、处理架构、组织职能、管理手段和应用范围六个方面……查看详情

    发布时间:2020.09.11来源:知乎浏览量:164次

  • 数据治理需要转变

    数据治理需要转变

    环境数据治理是一种策略和方法,它不仅可以扩展您的数据治理工作,还可以作为解决方案,以满足我们为新用例,法规和新出现的数字功能扩展数据时存……查看详情

    发布时间:2019.02.15来源:Michele Goetz浏览量:102次

  • 数据治理要处理好四个关系

    数据治理要处理好四个关系

    随着我国大数据战略的不断推进,各类生产生活行为都以数据的形式全景留痕,构建了一个与现实空间平行的“数据空间”,数据治理呼之欲出。要切实发……查看详情

    发布时间:2020.04.09来源:知乎浏览量:107次

  • 做好数据标准管理对企业来说有什么意义?

    做好数据标准管理对企业来说有什么意义?

    数据标准是数据全生命周期质量控制的机制与制度保障,贯穿数据从采集到存储、治理和分析应用的全过程,只有建立一套完备的标准体系,数据标准化之……查看详情

    发布时间:2020.05.08来源:知乎浏览量:92次

  • 国内成熟的数据治理解决方案提供商

    国内成熟的数据治理解决方案提供商

    如今,数据已成为企业的货币,但管理数据不当可能会很快失去控制。麻省理工学院最近的一项研究发现,对于一些企业来说,大数据正在变成糟糕的数据……查看详情

    发布时间:2019.11.25来源:CSDN浏览量:173次

  • 产生影响:数据治理和企业架构的失落艺术

    产生影响:数据治理和企业架构的失落艺术

    看起来我们忙着跑步,以至于我们没有时间思考。我们希望更快,更快速,但我们甚至不确定我们想要实现的目标。这就像你办公室的人总是太忙,正在工……查看详情

    发布时间:2019.03.22来源:亿信华辰浏览量:109次

  • 面对如今的数据挑战企业如何有效地进行数据治理

    面对如今的数据挑战企业如何有效地进行数据治理

    数据治理是对数据资产管理行使权力和控制的活动集合,数据治理是识别、管理和解决几种不同类型数据相关问题的手段,包括数据质量问题、数据命名和……查看详情

    发布时间:2019.08.29来源:知乎浏览量:133次

  • 医疗数据治理在大数据分析中的作用

    医疗数据治理在大数据分析中的作用

    数据治理对医疗保健组织意味着什么?为什么在进行大数据分析之前掌握它至关重要?数据一直是医疗保健行业的生命线。从血压读数和手术记录到保险索……查看详情

    发布时间:2018.11.19来源:Thinkstock浏览量:127次

  • 数据治理2.0:协作数据治理

    数据治理2.0:协作数据治理

    数据治理1.0过于孤立,无法真正有效,因此需要一种新的协作数据治理方法。……查看详情

    发布时间:2019.01.27来源:亿信华辰浏览量:184次

  • 在数字时代管理数据

    在数字时代管理数据

    人类生活在数据时代。今天生成的数据比人类历史上5000年的数据还要多 - 每天大约有2.5亿个字节的数据。……查看详情

    发布时间:2019.04.04来源:亿信华辰浏览量:121次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议