数据湖架构 - 最佳实践指南

发布时间:2021.06.18来源:亿信数据治理知识库浏览量:9次标签:数据治理

实施正确的数据湖架构对于将数据转化为价值至关重要。无论您的数据湖中有多少数据,如果您缺乏有效管理数据、跟踪数据并确保其安全的架构特性,那么数据将毫无用处。

什么是数据湖架构?

什么是数据湖

一个数据湖是在其“原始”格式的信息库,这意味着在它时,它首先被收集并添加到存储池中存在的格式。数据湖中的数据可以采用多种形式,并且没有任何特定的排列方式。

数据湖的架构是指数据湖中包含的功能,以便更轻松地处理该数据。尽管数据湖是非结构化的,但确保它们提供您的组织所需的功能和设计特性以便轻松地与它们所容纳的数据进行交互仍然很重要。

4个数据湖架构最佳实践方法

从一开始就将正确的功能构建到您的数据湖架构中对于确保您能够以所需的方式处理数据至关重要。

1. 建立治理

数据治理是指组织用来确保数据能够实现其预期目的的流程、标准和指标。数据治理还有助于实现有效的数据质量和数据安全。如果没有有效的数据治理,您就缺乏系统化且可预测的数据管理方法。 

在您的数据湖架构中包含数据治理需要从一开始就建立正确的流程、标准和指标。例如,为了标准化文件大小,通常明智的做法是为数据湖中的数据设置文件大小限制。过大的文件会使您的数据难以处理。

同样,您的数据团队应该创建一个流程来识别数据湖中的数据质量问题。理想情况下,通过扫描数据湖寻找数据质量问题的迹象,例如不完整或不可读的数据,该过程将尽可能自动化。

2. 创建数据目录

一个数据目录是有关数据的湖泊中存在的数据信息来源。其目的是使组织内外的利益相关者能够轻松了解数据的上下文,以便他们能够快速处理数据。

数据目录中包含的确切信息类型可能有所不同,但通常包括以下项目: 

·--哪些连接器是处理数据所必需的。

·--关于每个数据资产的来源和存储时间的元数据。

·--哪些应用程序使用数据的描述。

如果您从一开始就在数据湖架构中包含一个数据目录,那么随着数据湖的扩展,可以轻松扩展目录并使其保持最新状态。为此,首先根据组织的需要确定将在数据目录中包含哪些类型的信息。然后,部署工具,通过扫描添加到湖中的每个新数据资产,将条目自动添加到数据目录中。

3. 启用搜索

虽然数据目录提供了一种工具来帮助利益相关者在数据湖中找到他们需要的数据并确定如何使用它,但能够搜索数据湖也很重要。

有效的数据湖搜索功能应包括根据数据资产的大小、来源日期和内容等特征查找数据资产的能力。

由于数据湖通常非常大,因此尝试为每次搜索解析整个数据湖通常是不可行的。相反,建立数据资产索引以促进快速搜索,并定期重建索引以使其保持最新。

4. 确保安全

对于处理数据湖中的数据,数据安全性可能并不总是必不可少的。但它对于遵守合规性要求和确保敏感信息保持私密性至关重要。

要包含在数据湖架构中的基本数据安全最佳实践包括: 

·严格的访问控制可防止非授权方访问或修改数据湖。如果您的数据存储在本地,或者通过云提供商的基于云的数据湖的 IAM 框架,则可以在本地服务器上实施访问控制。

·加密也可以内置到您的数据湖架构中,以帮助防止对数据进行未经授权的访问。但是,请记住,加密不是灵丹妙药。即使数据在存储时被加密,当被应用程序使用时,它也经常被解密,不再受到保护。

2个成功的数据湖架构示例:医疗保健和技术

精心规划的数据湖架构是现代公司(跨各个行业)有效处理数据能力的关键部分。

生物制药数据湖架构

阿斯利康是一家生物制药公司,旨在为全球医学界创新、开发和生产创新药物。使用基于云的数据湖,阿斯利康能够存储和管理 20,000 TB 的数据。该公司能够使用单个数据湖支持多个内部团队,因为他们采用了多方面的数据湖架构和治理策略。

高科技数据湖架构

江森自控为全球客户提供高科技楼宇管理和气候控制解决方案。该公司依靠数据来实现其客户的统一视图。使用基于云的数据湖架构,该公司正在将越来越多的数据操作转移到云中,以便以安全的方式向组织内的所有部门提供数据。

云和数据湖架构的未来

虽然数据湖可以存在于本地,但云基础设施让越来越多的公司更容易构建和管理数据湖。云还有许多额外的好处——包括经济实惠且灵活的存储,以及从任何位置通过网络连接轻松访问基于云的数据湖。

展望未来,云数据仓库成本的降低,加上云兼容数据治理和安全工具的日益复杂,将推动创建更多基于云的数据湖架构。 

与此同时,越来越多的公司采用有助于提高可靠性同时降低成本的多云战略,这意味着更多的组织将构建跨越多个云基础设施的数据湖。由于这些数据湖分布在多个云中,因此组织将不得不依赖来自云提供商的本地工具和第三方解决方案的组合来管理它们。

数据湖架构入门

成功的数据湖架构包括数据治理、数据目录、搜索功能和有效的数据安全性。理想情况下,这些功能将从一开始就内置到您的数据湖架构中。 

但是,即使对于已经创建的数据湖,将这些功能添加到架构中也是可行的,特别是如果您利用工具来自动化创建数据目录和治理框架所需的流程。

 


(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 杰出数据科学家的关键技能是什么?

    杰出数据科学家的关键技能是什么?

    学习如何应用不同的Python或R算法真的很简单:众所周知, 我们只需要修改一两行代码,就能将线性回归迁移到神经网络、SVM,或者你喜欢……查看详情

    发布时间:2019.02.14来源:亿信华辰浏览量:6次

  • 强监管下,医疗卫生系统如何开展数据治理建设?

    强监管下,医疗卫生系统如何开展数据治理建设?

    随着大数据时代的到来,健康医疗大数据被广泛应用于临床决策支持、药物研发、公共卫生领域等方面。由于医疗数据分布广而无序、医学信息的极度不对……查看详情

    发布时间:2018.12.10来源:亿信华辰浏览量:6次

  • 大数据资产管理总体框架概述

    大数据资产管理总体框架概述

    随着大数据时代的来临,对数据的重视提到了前所未有的高度,“数据即资产”已经被广泛认可。数据就像企业的根基,是各企业尚待发掘的财富,即将被……查看详情

    发布时间:2020.08.28来源:知乎浏览量:4次

  • 数据资产管理经验干货心得分享

    数据资产管理经验干货心得分享

    数据资产的定义是是指由企业拥有或企业控制的,能够为企业带来未来经济利益的,以物理或电子的方式记录的数据资源,如文件资料,电子数据等。在企……查看详情

    发布时间:2020.08.19来源:微信浏览量:4次

  • 数据囤积日益增长的威胁

    数据囤积日益增长的威胁

    在数据丰富的环境中生活和工作的缺点之一是希望将所有最后的位和字节松开以备将来使用。得益于Amazon S3和Hadoop等廉价存储系统,……查看详情

    发布时间:2019.02.28来源:亿信华辰浏览量:2次

  • 数据治理能力正在成为互联网+时代城市竞争新优势

    数据治理能力正在成为互联网+时代城市竞争新优势

    新型智慧城市的四个新视角解读 城市服务要以人为中心,但是城市的服务不但以人为中心,还是要做到数据,由于数据为核心,没有好的数据,就没有……查看详情

    发布时间:2019.01.08来源:亿信华辰浏览量:4次

  • 为什么企业架构需要成熟度模型

    为什么企业架构需要成熟度模型

    跑步之前走路。我们已经听过一百万次了,引用了几乎同样多的不同学科。然而,由于时间有限,想要快速完成任务往往是人性。然而,就像我们的第一步……查看详情

    发布时间:2019.02.26来源:亿信华辰浏览量:4次

  • 数据治理:推动结果的引擎

    数据治理:推动结果的引擎

    组织成功取决于某些与共同业务目标一致的构建块。这些构建块包括业务活动,数据和分析。……查看详情

    发布时间:2019.01.26来源:亿信华辰浏览量:9次

  • 数据治理,帮你厘清企业的数据资产

    数据治理,帮你厘清企业的数据资产

    数据治理并不是一个新概念,最近因为5月份在欧盟推行的《通用数据保护条例》(General Data Protection Regulat……查看详情

    发布时间:2019.01.18来源:亿信华辰浏览量:6次

  • 大数据环境下的数据质量管理策略

    大数据环境下的数据质量管理策略

    信息时代,数据已经慢慢成为一种资产,数据质量成为决定资产优劣的一个重要方面。随着大数据的发展,越来越丰富的数据给数据质量的提升带来了新的……查看详情

    发布时间:2019.11.06来源:知乎浏览量:11次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议