数据湖架构 - 最佳实践指南

发布时间:2021.06.18来源:亿信数据治理知识库浏览量:156次标签:数据治理

实施正确的数据湖架构对于将数据转化为价值至关重要。无论您的数据湖中有多少数据,如果您缺乏有效管理数据、跟踪数据并确保其安全的架构特性,那么数据将毫无用处。

什么是数据湖架构?

什么是数据湖

一个数据湖是在其“原始”格式的信息库,这意味着在它时,它首先被收集并添加到存储池中存在的格式。数据湖中的数据可以采用多种形式,并且没有任何特定的排列方式。

数据湖的架构是指数据湖中包含的功能,以便更轻松地处理该数据。尽管数据湖是非结构化的,但确保它们提供您的组织所需的功能和设计特性以便轻松地与它们所容纳的数据进行交互仍然很重要。

4个数据湖架构最佳实践方法

从一开始就将正确的功能构建到您的数据湖架构中对于确保您能够以所需的方式处理数据至关重要。

1. 建立治理

数据治理是指组织用来确保数据能够实现其预期目的的流程、标准和指标。数据治理还有助于实现有效的数据质量和数据安全。如果没有有效的数据治理,您就缺乏系统化且可预测的数据管理方法。 

在您的数据湖架构中包含数据治理需要从一开始就建立正确的流程、标准和指标。例如,为了标准化文件大小,通常明智的做法是为数据湖中的数据设置文件大小限制。过大的文件会使您的数据难以处理。

同样,您的数据团队应该创建一个流程来识别数据湖中的数据质量问题。理想情况下,通过扫描数据湖寻找数据质量问题的迹象,例如不完整或不可读的数据,该过程将尽可能自动化。

2. 创建数据目录

一个数据目录是有关数据的湖泊中存在的数据信息来源。其目的是使组织内外的利益相关者能够轻松了解数据的上下文,以便他们能够快速处理数据。

数据目录中包含的确切信息类型可能有所不同,但通常包括以下项目: 

·--哪些连接器是处理数据所必需的。

·--关于每个数据资产的来源和存储时间的元数据。

·--哪些应用程序使用数据的描述。

如果您从一开始就在数据湖架构中包含一个数据目录,那么随着数据湖的扩展,可以轻松扩展目录并使其保持最新状态。为此,首先根据组织的需要确定将在数据目录中包含哪些类型的信息。然后,部署工具,通过扫描添加到湖中的每个新数据资产,将条目自动添加到数据目录中。

3. 启用搜索

虽然数据目录提供了一种工具来帮助利益相关者在数据湖中找到他们需要的数据并确定如何使用它,但能够搜索数据湖也很重要。

有效的数据湖搜索功能应包括根据数据资产的大小、来源日期和内容等特征查找数据资产的能力。

由于数据湖通常非常大,因此尝试为每次搜索解析整个数据湖通常是不可行的。相反,建立数据资产索引以促进快速搜索,并定期重建索引以使其保持最新。

4. 确保安全

对于处理数据湖中的数据,数据安全性可能并不总是必不可少的。但它对于遵守合规性要求和确保敏感信息保持私密性至关重要。

要包含在数据湖架构中的基本数据安全最佳实践包括: 

·严格的访问控制可防止非授权方访问或修改数据湖。如果您的数据存储在本地,或者通过云提供商的基于云的数据湖的 IAM 框架,则可以在本地服务器上实施访问控制。

·加密也可以内置到您的数据湖架构中,以帮助防止对数据进行未经授权的访问。但是,请记住,加密不是灵丹妙药。即使数据在存储时被加密,当被应用程序使用时,它也经常被解密,不再受到保护。

2个成功的数据湖架构示例:医疗保健和技术

精心规划的数据湖架构是现代公司(跨各个行业)有效处理数据能力的关键部分。

生物制药数据湖架构

阿斯利康是一家生物制药公司,旨在为全球医学界创新、开发和生产创新药物。使用基于云的数据湖,阿斯利康能够存储和管理 20,000 TB 的数据。该公司能够使用单个数据湖支持多个内部团队,因为他们采用了多方面的数据湖架构和治理策略。

高科技数据湖架构

江森自控为全球客户提供高科技楼宇管理和气候控制解决方案。该公司依靠数据来实现其客户的统一视图。使用基于云的数据湖架构,该公司正在将越来越多的数据操作转移到云中,以便以安全的方式向组织内的所有部门提供数据。

云和数据湖架构的未来

虽然数据湖可以存在于本地,但云基础设施让越来越多的公司更容易构建和管理数据湖。云还有许多额外的好处——包括经济实惠且灵活的存储,以及从任何位置通过网络连接轻松访问基于云的数据湖。

展望未来,云数据仓库成本的降低,加上云兼容数据治理和安全工具的日益复杂,将推动创建更多基于云的数据湖架构。 

与此同时,越来越多的公司采用有助于提高可靠性同时降低成本的多云战略,这意味着更多的组织将构建跨越多个云基础设施的数据湖。由于这些数据湖分布在多个云中,因此组织将不得不依赖来自云提供商的本地工具和第三方解决方案的组合来管理它们。

数据湖架构入门

成功的数据湖架构包括数据治理、数据目录、搜索功能和有效的数据安全性。理想情况下,这些功能将从一开始就内置到您的数据湖架构中。 

但是,即使对于已经创建的数据湖,将这些功能添加到架构中也是可行的,特别是如果您利用工具来自动化创建数据目录和治理框架所需的流程。

 


(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 数据治理与数据质量有何不同?

    数据治理与数据质量有何不同?

    当我们听到数据管理这些词时,“ 数据质量 ”和“数据治理” 这两个术语出现了很多,它们应该是因为这些是确保组织以最佳方式利用其信息的重要……查看详情

    发布时间:2019.06.25来源:知乎浏览量:277次

  • 什么是数据治理?

    什么是数据治理?

    数据治理是一个包含可用性,适用性,完整性和安全性的四向框架。它是由使用技术的利益相关者使用的一组流程,以确保管理和保护重要和关键数据。它……查看详情

    发布时间:2018.11.16来源:互联网浏览量:164次

  • 数据要素跑步入场,如何构建大数据治理体系?

    数据要素跑步入场,如何构建大数据治理体系?

    通俗来说,数据治理就是预防、诊断和治疗与数据有关的一切“病症”。亿信华辰智能数据治理平台——“睿治”就是根治病症的良药。……查看详情

    发布时间:2021.05.13来源:亿信数据治理知识库浏览量:194次

  • 我国数据资产管理的现状

    我国数据资产管理的现状

    我国数据资产管理市场发展的主要推动来自政府和大型互联网公司。在国家层面上,正在以政务信息和政府数据管理为切入口,由上至下地推动数据资产管……查看详情

    发布时间:2020.09.11来源:知乎浏览量:227次

  • 为什么要进行数据交换

    为什么要进行数据交换

    企业大量的IT投资建立了众多的信息系统,但是随着信息系统的增加,各自孤立工作的信息系统将会造成大量的冗余数据和业务人员的重复劳动。企业急……查看详情

    发布时间:2020.08.10来源:知乎浏览量:132次

  • 大数据资产管理总体框架概述

    大数据资产管理总体框架概述

    随着大数据时代的来临,对数据的重视提到了前所未有的高度,“数据即资产”已经被广泛认可。数据就像企业的根基,是各企业尚待发掘的财富,即将被……查看详情

    发布时间:2020.08.28来源:知乎浏览量:144次

  • 什么是cgeit?对经验丰富的IT治理专业人员的认证

    什么是cgeit?对经验丰富的IT治理专业人员的认证

    cgeit是一个供应商中立的认证,为负责管理it企业治理的IT专业人士设计,以验证他们在该领域的技能。……查看详情

    发布时间:2019.01.09来源:亿信华辰浏览量:140次

  • 什么是自适应数据分析和数据治理?

    什么是自适应数据分析和数据治理?

    自适应数据和分析治理,这种方法可帮助企业保持相关性并响应组织内部和外部的快速变化的环境。在自适应数据和分析治理中,数据治理不仅仅是约束和……查看详情

    发布时间:2021.06.02来源:亿信华辰数据治理知识库浏览量:142次

  • 数据治理分析项目最佳实践

    数据治理分析项目最佳实践

    当今信息化建设程度不断深入,企业在优化整合各种IT能力,使IT成为企业的前进驱动力与核心竞争力的同时,将视角关注于更深层次的数据治理与分……查看详情

    发布时间:2019.08.08来源:CSDN浏览量:187次

  • 大数据平台安全防护——亿信华辰

    大数据平台安全防护——亿信华辰

    企业大数据数据源接入越来越多、数据量越来越大、平台越来越复杂,保存了很多企业敏感数据,甚至客户隐私信息。随着数据商业价值的增加,针对数据……查看详情

    发布时间:2019.01.10来源:亿信华辰浏览量:263次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议