为什么集成和治理对数据湖成功至关重要

发布时间:2019.02.28来源:亿信华辰浏览量:118次标签:数据治理


这是一个由三部分组成的系列文章的最后一篇文章,探讨如何构建一个能够满足真正企业级数据管理平台所有要求的数据湖。虽然早期的专题文章侧重于Hadoop中的企业级数据管理,数据入库中的数据以及安全性,但本文将重点关注两件事:在更广泛的企业IT环境中整合数据湖,以及数据治理

随着更多湖泊的部署,我们看到了数据湖相对于大型组织中现有数据库,数据仓库,分析设备和企业应用程序的定位模式。

数据湖:留在这里

一些数据湖从一开始就被部署为集中的记录数据平台系统,为企业规模的其他系统服务,即数据即服务模型。随着集中数据湖建立势头,收集更多数据并吸引更多用例和用户,随着用户协作改进和重用数据,其价值也在不断增长。

其他项目始于组织的边缘,以提供数据并满足特定业务组的分析需求。本地化数据湖通常会扩展为支持多个团队或生成其他单独的数据湖实例,以支持希望获得与第一组相同的改进数据访问权限的其他组。

无论数据湖在组织中落地和扩展采用何种模式,数据湖在组织中日益重要的角色都会带来对企业准备的新要求。

整合挑战

为了做好企业准备,数据湖需要支持一系列功能,使其能够集成到公司的整体数据管理战略和IT应用程序以及数据流方面。

以下是一些要记住的要求:


  • 必须能够自动化和嵌入与数据湖交互的过程,以便可以在熄灯生产模式下自动调用和执行用新数据更新湖或从湖中提供数据的作业。这意味着数据湖需要提供RESTFul API,该API可以由环境中的其他脚本或计划调用,并公开在生产环境中与数据湖交互所需的所有功能。
  • 数据湖需要能够以多种格式导出数据和相关元数据,以便湖中的数据可以轻松地与其他应用程序或下游报告/分析系统集成。
  • 数据湖需要支持开发,测试和生产环境,并允许在数据湖环境中从一个环境到下一个环境轻松推广数据摄取,数据准备和类似资产。
  • 数据湖需要使湖泊的各个部分更容易在不同的Hadoop集群中共享,以便在具有多个数据湖的大型组织中,可以轻松且一致地共享数据,元数据和相关资产。
  • 必须可以将在数据湖中收集和生成的元数据与其他企业标准元数据存储库进行交换。


治湖

除了流式传输数据湖的集成之外,您还必须准备好湖泊,以支持广泛且不断扩展的业务用户社区。

随着越来越多的用户开始直接或通过下游应用程序或报告/分析系统处理数据湖,强大数据治理的重要性也在增长。本主题 - 数据治理 - 是企业准备的最后一个维度。

通过将大量存储库中的数百种不同数据集汇集在一起,并为用户提供前所未有的直接访问数据,数据湖创造了新的治理挑战和机遇。

挑战与确保数据治理政策和程序在湖中存在并得到执行有关。数据湖中的企业级数据治理首先明确定义了每个数据资产进入湖泊时谁拥有或拥有监管责任,并通过数据湖流程进行维护和增强。此外,数据湖需要包含有关所需准确性,可访问性,一致性,完整性和每个数据源更新的详细记录策略。

为了监视和实施这些策略的应用,数据湖环境必须根据数据质量,特性和完整性自动分析每个数据源的摄取。此外,数据湖应自动跟踪和记录数据资产的任何操作(清理,转换,准备),以提供湖中所有用户和活动的清晰审计跟踪。

最后,当涉及数据湖中的企业级数据治理时,必须制定限制措施以确保人们只能看到应该允许他们看到的数据。(有关身份验证,授权和数据访问控制的重要性的更多信息,请参阅本系列的第2部分。)

企业规模的良性循环

但数据治理在真正的企业级数据湖中的作用不仅是降低风险和实施控制。它还可以创建附加值,并围绕用户和组的数据实现更丰富的更广泛协作。

如果设计得当,数据湖的独特之处在于允许大量非技术业务用户在从原始源系统数据到业务用户就绪信息的进化路径上移动数据时访问,探索和增强数据。

良好的数据治理通过帮助业务用户使用众包业务元数据增强数据以及为数据添加上下文,业务定义和含义的标记来实现此过程。结合数据治理策略,有选择地剔除并促进组织中对“黄金标准”数据的最佳群众资源洞察力,越来越多的企业用户参与企业规模数据湖可以创建用户的良性循环参与可以增强数据,带来更多用户,更多增强,并最终为湖泊带来更多价值。

(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 一文讲透什么是数据治理和数据管理

    一文讲透什么是数据治理和数据管理

    数据管理和数据治理有很多地方是互相重叠的,它们都围绕数据这个领域展开,因此这两个术语经常被混为一谈。此外,每当人们提起数据管理和数据治理……查看详情

    发布时间:2020.07.29来源:今日头条浏览量:146次

  • 数据湖架构 - 最佳实践指南

    数据湖架构 - 最佳实践指南

    实施正确的数据湖架构对于将数据转化为价值至关重要。无论您的数据湖中有多少数据,如果您缺乏有效管理数据、跟踪数据并确保其安全的架构特性,那……查看详情

    发布时间:2021.06.18来源:亿信数据治理知识库浏览量:153次

  • 数据共享,奇葩证明的解药——亿信华辰

    数据共享,奇葩证明的解药——亿信华辰

    出境旅游,要求出具“母子关系证明”;市民迁户口,要证明“你爸是你爸”;车在大风中被树木刮伤,理赔要出示“风力证明”;去买房,要证明“结婚……查看详情

    发布时间:2019.03.04来源:亿信华辰浏览量:147次

  • 4种启动数据治理计划的数据治理最佳实践

    4种启动数据治理计划的数据治理最佳实践

    对于数据治理而言,不同行业和地理位置的巨大景观聚集在一起,为有效管理数据创造了重要且可持续的东西。……查看详情

    发布时间:2018.12.25来源:亿信华辰浏览量:158次

  • 如何构建企业安全易用的数据资产?

    如何构建企业安全易用的数据资产?

    在数据治理架构中,数据资产管理位于底层数据和数据管理与应用之间,处于承上启下的重要地位。对上支撑数据安全管理等职能建设以价值发掘为导向的……查看详情

    发布时间:2021.06.02来源:亿信华辰数据治理知识库浏览量:229次

  • 使用数据治理克服常见的业务障碍

    使用数据治理克服常见的业务障碍

    在快速发展的技术,大数据和高级分析的时代,数据治理在每个组织中都发挥着至关重要的作用,无论规模大小或行业如何。从定义元数据管理指南,到解……查看详情

    发布时间:2019.01.08来源:亿信华辰浏览量:135次

  • 构建金融大数据标准体系的意义和目标

    构建金融大数据标准体系的意义和目标

    随着政府职能的逐步简政放权,标准作为辅助行业管理、规范行业发展、形成规模化效应的重要手段,将在社会治理体系中发挥更重要的作用。为顺应形势……查看详情

    发布时间:2019.12.27来源:CSDN浏览量:157次

  • 从主数据到数据资产,数据资产管理到底应该怎么做?

    从主数据到数据资产,数据资产管理到底应该怎么做?

    主数据和数据资产管理的定义我们已经说烂了,今天就从主数据出发,来说说怎么进行数据资产管理。主数据的问题80%是管理问题很多企业的信息部门……查看详情

    发布时间:2020.08.19来源:CDDN浏览量:137次

  • 企业的元数据和元数据管理平台介绍

    企业的元数据和元数据管理平台介绍

    元数据管理是做什么?元数据在数据平台对原信息的收集、汇总和传递将数据平台各个模块整合起来。元数据管理系统是收集线上db、solor集群、……查看详情

    发布时间:2020.08.31来源:CSDN浏览量:145次

  • 什么是数据治理?政务数据治理与数据治理有什么不同?

    什么是数据治理?政务数据治理与数据治理有什么不同?

    政务数据治理,其实是应用了广义数据治理的其中一部分内容,其因管理和历史因素,在战略规划、组织架构、制度、流程和评估层面在很多时候无法达到……查看详情

    发布时间:2021.04.09来源:亿信数据治理研究院浏览量:331次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议