数据湖中的数据管理与治理

发布时间:2019.03.05来源:亿信华辰浏览量:150次标签:数据治理


数据湖是存储所有数据的中心位置,无论源或格式如何。它通常使用Hadoop构建。数据可以是结构化的或非结构化的。您可以使用各种存储,分析和处理工具快速提取价值,以便为关键的组织决策提供信息。

由于欢迎所有数据,因此数据湖是传统企业数据仓库的有力替代或补充。此外,随着组织转向基于云的应用程序和物联网,数据湖是一个主要选择。

在早期用例中,组织经常将数据加载到数据湖中而不尝试对其进行管理。随着数据湖泊的成熟并对组织变得更具战略性,将数据转储到数据湖中并希望获得最佳效果已经不够了。

数据湖具有灵活性,可扩展性和成本效益。但是,如果您添加数据管理和治理功能(如数据质量,元数据管理,安全性,转换以及分组或组合数据的能力),它还可以拥有传统EDW的大部分内容。如果管理得当,数据湖可以改进现有的数据计划并实现新的计划。您的组织可以在构建数据湖时选择以下四种路径之一:

选项1:稍后解决治理问题

第一种选择是忽略治理并将数据自由加载到湖中。之后,当您需要从数据中发现见解时,您将不得不找到清理数据的工具,例如机器学习技术。这种方法存在实际风险。即便是最智能的推理引擎也需要在湖中的大量数据中启动。不可避免地,数据湖的某些部分将被忽略,变得停滞,孤立,并包含结构如此之少的数据,即使是最聪明的自动化工具 - 或人类分析师 - 也不知道从哪里开始。

选项2:调整现有的传统工具

您可以利用最初为EDW设计的应用程序和流程。可以使用软件工具执行在EDW中导入干净数据时使用的ETL过程。您可以使用这些工具将数据导入湖中,但这样做成本很高,并且只能解决您需要的部分管理和治理功能。另一个缺点是ETL发生在Hadoop集群之外,减慢了操作并增加了成本,因为每个查询都必须将数据移出集群。

选项3:编写自定义脚本

使用第三个选项,您可以使用自定义脚本构建工作流,该脚本连接流程,应用程序,质量检查和数据转换以满足治理需求。这是一个受欢迎的选择,但是最不可靠和最耗费资源。您需要熟练掌握Hadoop及其生态系统的高技能分析师来利用开源工具,他们需要编写脚本来连接各个部分。随着您在湖中成长,这个过程变得更加耗时且成本更高,因为您必须不断修改复杂的代码和工作流程。

选项4:部署集成数据湖管理平台

第四种选择是整合数据湖泊管理平台,该平台专门用于摄取和管理数据湖中的大量不同数据集。Zaloni的Bedrock提供此功能。它允许您对数据进行编目,利用元数据,并支持确保数据质量,数据沿袭和自动化工作流程的持续过程。这种方法正在成为数据湖管理和治理的最佳解决方案。

当您转换到数据湖时,选择完全集成的数据湖泊管理平台将使您对数据充满信心,并对其进行扩展以包含越来越多的用户和有利于业务的用例。毕竟,这就是数据的用途,通知和改善整个组织的决策流程,并以新的和令人兴奋的方式帮助您的业务增长。


(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 高质量的数据一般包括哪些特征?

    高质量的数据一般包括哪些特征?

    ​基于数据决策的前提是数据可靠且相关,数据必须是“真实可信的”,否则“输出将是误导和无效的”。但是企业所收集的数据可能不完全,或者更新不……查看详情

    发布时间:2022.06.09来源:小亿浏览量:3066次

  • 五大数据治​​理用例和驱动因素

    五大数据治​​理用例和驱动因素

    随着数据应用程序的增长,数据治理用例也在增长。而传统的,仅限IT的数据治理方法Data Governance 1.0已经为协作的企业级数……查看详情

    发布时间:2019.01.25来源:亿信华辰浏览量:170次

  • 数据质量需求与定义

    数据质量需求与定义

    数据质量通常表现为一组具体的流程和技术,用于识别和修正数据中的错误以支持业务运行及决策支持。在银行实际中数据质量管理的应用场景主要包括数……查看详情

    发布时间:2019.11.15来源:知乎浏览量:228次

  • 数据治理能否提升数据安全性?

    数据治理能否提升数据安全性?

    大数据技术的快速发展不断催生新的产业形态,正成为经济社会发展的新动能。在·发展数字经济、加快培育发展数据要素市场,必须把保障数据安全放在……查看详情

    发布时间:2022.03.07来源:小亿浏览量:144次

  • 构建金融大数据标准体系的意义和目标

    构建金融大数据标准体系的意义和目标

    随着政府职能的逐步简政放权,标准作为辅助行业管理、规范行业发展、形成规模化效应的重要手段,将在社会治理体系中发挥更重要的作用。为顺应形势……查看详情

    发布时间:2019.12.27来源:CSDN浏览量:120次

  • 业务词汇表和元数据:数据治理和词汇表准备

    业务词汇表和元数据:数据治理和词汇表准备

    我经常被问到“我们如何捕获数据词汇表资产”和“我们是否已准备好与数据管理员合作?”我的回答始终是:如果您能说明数据治理计划的目标并拥有赞……查看详情

    发布时间:2018.12.21来源:数据治理浏览量:121次

  • 数据治理 VS 数据管理!

    数据治理 VS 数据管理!

    与早期的数字化原生企业相比,不进行数据管理或治理的企业将面临着严重的后果 。至于说到良好的数据管理和应用的实践,大多数人只会将这个词与那……查看详情

    发布时间:2022.06.15来源:互联网浏览量:192次

  • 数据标准管理平台解决方案

    数据标准管理平台解决方案

    企业内部开展企业数据资源整合工作,实现对企业核心业务、核心资源的综合管控,是企业信息化的一个核心目标。通过体系化的数据资源管理平台的建设……查看详情

    发布时间:2020.04.28来源:知乎浏览量:153次

  • 主动方法在数据治理的数据架构

    主动方法在数据治理的数据架构

    “数据架构是业务战略的物理实现,” 全球数据战略有限公司 EMEA首席顾问NigelTurner在DATAVER……查看详情

    发布时间:2019.01.16来源:亿信华辰浏览量:94次

  • 大数据平台应用开发的五个痛点

    大数据平台应用开发的五个痛点

    随着数据利用率的提高和数据共享行为变得频繁,对于大数据平台应用开发来说,如何进行数据交换是每个平台组件都绕不过去的问题。目前大数据平台应……查看详情

    发布时间:2020.08.21来源:知乎浏览量:97次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议