数据湖中的数据管理与治理

发布时间:2019.03.05来源:亿信华辰浏览量:54次标签:数据治理


数据湖是存储所有数据的中心位置,无论源或格式如何。它通常使用Hadoop构建。数据可以是结构化的或非结构化的。您可以使用各种存储,分析和处理工具快速提取价值,以便为关键的组织决策提供信息。

由于欢迎所有数据,因此数据湖是传统企业数据仓库的有力替代或补充。此外,随着组织转向基于云的应用程序和物联网,数据湖是一个主要选择。

在早期用例中,组织经常将数据加载到数据湖中而不尝试对其进行管理。随着数据湖泊的成熟并对组织变得更具战略性,将数据转储到数据湖中并希望获得最佳效果已经不够了。

数据湖具有灵活性,可扩展性和成本效益。但是,如果您添加数据管理和治理功能(如数据质量,元数据管理,安全性,转换以及分组或组合数据的能力),它还可以拥有传统EDW的大部分内容。如果管理得当,数据湖可以改进现有的数据计划并实现新的计划。您的组织可以在构建数据湖时选择以下四种路径之一:

选项1:稍后解决治理问题

第一种选择是忽略治理并将数据自由加载到湖中。之后,当您需要从数据中发现见解时,您将不得不找到清理数据的工具,例如机器学习技术。这种方法存在实际风险。即便是最智能的推理引擎也需要在湖中的大量数据中启动。不可避免地,数据湖的某些部分将被忽略,变得停滞,孤立,并包含结构如此之少的数据,即使是最聪明的自动化工具 - 或人类分析师 - 也不知道从哪里开始。

选项2:调整现有的传统工具

您可以利用最初为EDW设计的应用程序和流程。可以使用软件工具执行在EDW中导入干净数据时使用的ETL过程。您可以使用这些工具将数据导入湖中,但这样做成本很高,并且只能解决您需要的部分管理和治理功能。另一个缺点是ETL发生在Hadoop集群之外,减慢了操作并增加了成本,因为每个查询都必须将数据移出集群。

选项3:编写自定义脚本

使用第三个选项,您可以使用自定义脚本构建工作流,该脚本连接流程,应用程序,质量检查和数据转换以满足治理需求。这是一个受欢迎的选择,但是最不可靠和最耗费资源。您需要熟练掌握Hadoop及其生态系统的高技能分析师来利用开源工具,他们需要编写脚本来连接各个部分。随着您在湖中成长,这个过程变得更加耗时且成本更高,因为您必须不断修改复杂的代码和工作流程。

选项4:部署集成数据湖管理平台

第四种选择是整合数据湖泊管理平台,该平台专门用于摄取和管理数据湖中的大量不同数据集。Zaloni的Bedrock提供此功能。它允许您对数据进行编目,利用元数据,并支持确保数据质量,数据沿袭和自动化工作流程的持续过程。这种方法正在成为数据湖管理和治理的最佳解决方案。

当您转换到数据湖时,选择完全集成的数据湖泊管理平台将使您对数据充满信心,并对其进行扩展以包含越来越多的用户和有利于业务的用例。毕竟,这就是数据的用途,通知和改善整个组织的决策流程,并以新的和令人兴奋的方式帮助您的业务增长。


(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 大数据资产管理总体框架概述

    大数据资产管理总体框架概述

    随着大数据时代的来临,对数据的重视提到了前所未有的高度,“数据即资产”已经被广泛认可。数据就像企业的根基,是各企业尚待发掘的财富,即将被……查看详情

    发布时间:2020.08.28来源:知乎浏览量:22次

  • 创新者的破局之路:煤炭行业首个集团级数据治理项目落地

    创新者的破局之路:煤炭行业首个集团级数据治理项目落地

    工业互联网激起能源领域一池春水,新一代信息技术则是其不断发展的加速器。山东能源集团下属临沂矿业集团有限责任公司(以下简称临矿集团)率先在……查看详情

    发布时间:2021.01.29来源:头条浏览量:41次

  • 大数据技术学习,深度挖掘大数据的现状分析

    大数据技术学习,深度挖掘大数据的现状分析

    企业级技术 = 艰苦的工作 其实大数据有趣的是它不是直接可以炒作的东西。 能够获得广泛兴趣的产品和服务往往是那些人们可以触摸……查看详情

    发布时间:2019.03.20来源:亿信华辰浏览量:35次

  • 国内成熟的数据治理解决方案提供商

    国内成熟的数据治理解决方案提供商

    如今,数据已成为企业的货币,但管理数据不当可能会很快失去控制。麻省理工学院最近的一项研究发现,对于一些企业来说,大数据正在变成糟糕的数据……查看详情

    发布时间:2019.11.25来源:CSDN浏览量:68次

  • 云中的数据治理

    云中的数据治理

    IT中心,内部部署基础架构变得越来越复杂和昂贵,并且需要高技能的人力,因此企业现在将其IT和数据科学功能转移到云。云计算承诺提供低成本存……查看详情

    发布时间:2019.02.21来源:亿信华辰浏览量:37次

  • 高质量的数据一般包括哪些特征?

    高质量的数据一般包括哪些特征?

    ​基于数据决策的前提是数据可靠且相关,数据必须是“真实可信的”,否则“输出将是误导和无效的”。但是企业所收集的数据可能不完全,或者更新不……查看详情

    发布时间:2022.06.09来源:小亿浏览量:820次

  • 数据治理这个事儿啊,不是个事儿

    数据治理这个事儿啊,不是个事儿

    数据治理是一个包含可用性,适用性,完整性和安全性的四向框架。它是由使用技术的利益相关者使用的一组流程,用于确保管理和保护重要的关键数据。……查看详情

    发布时间:2019.06.28来源:知乎浏览量:23次

  • 企业数据治理的目的、意义及挑战有哪些?

    企业数据治理的目的、意义及挑战有哪些?

    随着大数据相关技术的不断成熟,数据作为一种资产,得到了越来越多企业机构的重视,为了能够有效的利用数据资产,数据治理成了当下政府和企业重点……查看详情

    发布时间:2022.05.11来源:小亿浏览量:192次

  • 大数据时代的企业都有那些数据质量问题

    大数据时代的企业都有那些数据质量问题

    企业要想充发挥大数据的作用,就要保证数据的可靠、及时、准确,只有从高质量的数中提取出来的有用信息,企业才可以做出更精准的决策,才能更了解……查看详情

    发布时间:2019.09.27来源:数据分析网浏览量:32次

  • 一文透露银行业的数据治理该不该做,又怎么做?

    一文透露银行业的数据治理该不该做,又怎么做?

    小宋最近同学会,一个大学同学就职银行信息科技部门,听说小宋也在一家大数据公司便拉起小宋的手要和她好好掰扯掰扯一下银行业的数据治理了。银行……查看详情

    发布时间:2020.07.29来源:今日头条浏览量:27次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议