数据湖架构 - 最佳实践指南

发布时间:2021.06.18来源:亿信数据治理知识库浏览量:125次标签:数据治理

实施正确的数据湖架构对于将数据转化为价值至关重要。无论您的数据湖中有多少数据,如果您缺乏有效管理数据、跟踪数据并确保其安全的架构特性,那么数据将毫无用处。

什么是数据湖架构?

什么是数据湖

一个数据湖是在其“原始”格式的信息库,这意味着在它时,它首先被收集并添加到存储池中存在的格式。数据湖中的数据可以采用多种形式,并且没有任何特定的排列方式。

数据湖的架构是指数据湖中包含的功能,以便更轻松地处理该数据。尽管数据湖是非结构化的,但确保它们提供您的组织所需的功能和设计特性以便轻松地与它们所容纳的数据进行交互仍然很重要。

4个数据湖架构最佳实践方法

从一开始就将正确的功能构建到您的数据湖架构中对于确保您能够以所需的方式处理数据至关重要。

1. 建立治理

数据治理是指组织用来确保数据能够实现其预期目的的流程、标准和指标。数据治理还有助于实现有效的数据质量和数据安全。如果没有有效的数据治理,您就缺乏系统化且可预测的数据管理方法。 

在您的数据湖架构中包含数据治理需要从一开始就建立正确的流程、标准和指标。例如,为了标准化文件大小,通常明智的做法是为数据湖中的数据设置文件大小限制。过大的文件会使您的数据难以处理。

同样,您的数据团队应该创建一个流程来识别数据湖中的数据质量问题。理想情况下,通过扫描数据湖寻找数据质量问题的迹象,例如不完整或不可读的数据,该过程将尽可能自动化。

2. 创建数据目录

一个数据目录是有关数据的湖泊中存在的数据信息来源。其目的是使组织内外的利益相关者能够轻松了解数据的上下文,以便他们能够快速处理数据。

数据目录中包含的确切信息类型可能有所不同,但通常包括以下项目: 

·--哪些连接器是处理数据所必需的。

·--关于每个数据资产的来源和存储时间的元数据。

·--哪些应用程序使用数据的描述。

如果您从一开始就在数据湖架构中包含一个数据目录,那么随着数据湖的扩展,可以轻松扩展目录并使其保持最新状态。为此,首先根据组织的需要确定将在数据目录中包含哪些类型的信息。然后,部署工具,通过扫描添加到湖中的每个新数据资产,将条目自动添加到数据目录中。

3. 启用搜索

虽然数据目录提供了一种工具来帮助利益相关者在数据湖中找到他们需要的数据并确定如何使用它,但能够搜索数据湖也很重要。

有效的数据湖搜索功能应包括根据数据资产的大小、来源日期和内容等特征查找数据资产的能力。

由于数据湖通常非常大,因此尝试为每次搜索解析整个数据湖通常是不可行的。相反,建立数据资产索引以促进快速搜索,并定期重建索引以使其保持最新。

4. 确保安全

对于处理数据湖中的数据,数据安全性可能并不总是必不可少的。但它对于遵守合规性要求和确保敏感信息保持私密性至关重要。

要包含在数据湖架构中的基本数据安全最佳实践包括: 

·严格的访问控制可防止非授权方访问或修改数据湖。如果您的数据存储在本地,或者通过云提供商的基于云的数据湖的 IAM 框架,则可以在本地服务器上实施访问控制。

·加密也可以内置到您的数据湖架构中,以帮助防止对数据进行未经授权的访问。但是,请记住,加密不是灵丹妙药。即使数据在存储时被加密,当被应用程序使用时,它也经常被解密,不再受到保护。

2个成功的数据湖架构示例:医疗保健和技术

精心规划的数据湖架构是现代公司(跨各个行业)有效处理数据能力的关键部分。

生物制药数据湖架构

阿斯利康是一家生物制药公司,旨在为全球医学界创新、开发和生产创新药物。使用基于云的数据湖,阿斯利康能够存储和管理 20,000 TB 的数据。该公司能够使用单个数据湖支持多个内部团队,因为他们采用了多方面的数据湖架构和治理策略。

高科技数据湖架构

江森自控为全球客户提供高科技楼宇管理和气候控制解决方案。该公司依靠数据来实现其客户的统一视图。使用基于云的数据湖架构,该公司正在将越来越多的数据操作转移到云中,以便以安全的方式向组织内的所有部门提供数据。

云和数据湖架构的未来

虽然数据湖可以存在于本地,但云基础设施让越来越多的公司更容易构建和管理数据湖。云还有许多额外的好处——包括经济实惠且灵活的存储,以及从任何位置通过网络连接轻松访问基于云的数据湖。

展望未来,云数据仓库成本的降低,加上云兼容数据治理和安全工具的日益复杂,将推动创建更多基于云的数据湖架构。 

与此同时,越来越多的公司采用有助于提高可靠性同时降低成本的多云战略,这意味着更多的组织将构建跨越多个云基础设施的数据湖。由于这些数据湖分布在多个云中,因此组织将不得不依赖来自云提供商的本地工具和第三方解决方案的组合来管理它们。

数据湖架构入门

成功的数据湖架构包括数据治理、数据目录、搜索功能和有效的数据安全性。理想情况下,这些功能将从一开始就内置到您的数据湖架构中。 

但是,即使对于已经创建的数据湖,将这些功能添加到架构中也是可行的,特别是如果您利用工具来自动化创建数据目录和治理框架所需的流程。

 


(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 数据治理的演变

    数据治理的演变

    数据治理正在迅速发展。……查看详情

    发布时间:2019.03.12来源:亿信华辰浏览量:136次

  • 为什么数据治理会带来数据驱动的成功

    为什么数据治理会带来数据驱动的成功

    通过寻找创造价值和改进执行的新方法,各种形式和规模的组织都在积极地采用数据驱动的方法,这些方法可以通过分析的进步来实现。……查看详情

    发布时间:2019.01.26来源:亿信华辰浏览量:132次

  • 有效数据治理的几个原则

    有效数据治理的几个原则

    一个好的数据中心将利用自己现有的技术和设备,向用户提供服务,尽量减少操作和维护成本,并最大限度地提高利润。如果你经常担心数据的准确性,并……查看详情

    发布时间:2019.10.21来源:知乎浏览量:109次

  • 大数据如何成为了驱动社会治理的创新转向?

    大数据如何成为了驱动社会治理的创新转向?

    大数据、智能化、移动互联、云计算成为了驱动经济发展和社会转型的重要力量,“用数据说话、用数据决策、用数据管理、用数据创新”成为了公共管理……查看详情

    发布时间:2018.09.30来源:中新界面浏览量:117次

  • 零售商的数据治理势在必行

    零售商的数据治理势在必行

    最好的零售商擅长推销商品。在顶级的实体和电子商务商店,产品组织巧妙,布置精美,色彩鲜明,使客户可以轻松找到他们想要的东西。做得好,商品推……查看详情

    发布时间:2018.12.27来源:亿信华辰浏览量:124次

  • 医疗保健中数据治理的7个基本实践

    医疗保健中数据治理的7个基本实践

    数据现在是任何组织中最有价值的资产之一,尤其是医疗保健,因为我们正在转向更具分析性的行业。数据现在是任何组织中最持久的资产,超过设施,设……查看详情

    发布时间:2018.11.16来源:戴尔桑德斯浏览量:118次

  • 什么是数据治理?

    什么是数据治理?

    关于数据治理,我需要了解什么?数据治理要求组织了解并评估其数据必须满足的法规要求,法律要求和业务最佳实践,建立规则,并采用自动化和人工流……查看详情

    发布时间:2018.11.16来源:互联网浏览量:133次

  • 实施数据治理策略

    实施数据治理策略

    数据治理是确保数据在输入系统时满足精确标准和业务规则的过程。数据治理使企业能够控制数据资产的管理。此过程包括确保数据符合其预期目的所需的……查看详情

    发布时间:2018.11.16来源:互联网浏览量:101次

  • 做好数据治理,更快更好地推进数字化转型

    做好数据治理,更快更好地推进数字化转型

    数据为关键要素的数字经济进入了新时代。当前,以人工智能、区块链等为代表的数字技术不断涌现,快速向经济社会各领域融合渗透。以数据为核心的数……查看详情

    发布时间:2020.03.26来源:知乎浏览量:119次

  • 国内数据治理有何新动向?

    国内数据治理有何新动向?

    大数据时代,大数据技术在飞速的发展,逐渐的,大数据融入了各行各业,并且深受各大企业的喜欢,为了让各个企业的数据资产得到充分的利用,数据治……查看详情

    发布时间:2019.09.23来源:知乎浏览量:143次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议