数据湖架构 - 最佳实践指南

发布时间:2021.06.18来源:亿信数据治理知识库浏览量:76次标签:数据治理

实施正确的数据湖架构对于将数据转化为价值至关重要。无论您的数据湖中有多少数据,如果您缺乏有效管理数据、跟踪数据并确保其安全的架构特性,那么数据将毫无用处。

什么是数据湖架构?

什么是数据湖

一个数据湖是在其“原始”格式的信息库,这意味着在它时,它首先被收集并添加到存储池中存在的格式。数据湖中的数据可以采用多种形式,并且没有任何特定的排列方式。

数据湖的架构是指数据湖中包含的功能,以便更轻松地处理该数据。尽管数据湖是非结构化的,但确保它们提供您的组织所需的功能和设计特性以便轻松地与它们所容纳的数据进行交互仍然很重要。

4个数据湖架构最佳实践方法

从一开始就将正确的功能构建到您的数据湖架构中对于确保您能够以所需的方式处理数据至关重要。

1. 建立治理

数据治理是指组织用来确保数据能够实现其预期目的的流程、标准和指标。数据治理还有助于实现有效的数据质量和数据安全。如果没有有效的数据治理,您就缺乏系统化且可预测的数据管理方法。 

在您的数据湖架构中包含数据治理需要从一开始就建立正确的流程、标准和指标。例如,为了标准化文件大小,通常明智的做法是为数据湖中的数据设置文件大小限制。过大的文件会使您的数据难以处理。

同样,您的数据团队应该创建一个流程来识别数据湖中的数据质量问题。理想情况下,通过扫描数据湖寻找数据质量问题的迹象,例如不完整或不可读的数据,该过程将尽可能自动化。

2. 创建数据目录

一个数据目录是有关数据的湖泊中存在的数据信息来源。其目的是使组织内外的利益相关者能够轻松了解数据的上下文,以便他们能够快速处理数据。

数据目录中包含的确切信息类型可能有所不同,但通常包括以下项目: 

·--哪些连接器是处理数据所必需的。

·--关于每个数据资产的来源和存储时间的元数据。

·--哪些应用程序使用数据的描述。

如果您从一开始就在数据湖架构中包含一个数据目录,那么随着数据湖的扩展,可以轻松扩展目录并使其保持最新状态。为此,首先根据组织的需要确定将在数据目录中包含哪些类型的信息。然后,部署工具,通过扫描添加到湖中的每个新数据资产,将条目自动添加到数据目录中。

3. 启用搜索

虽然数据目录提供了一种工具来帮助利益相关者在数据湖中找到他们需要的数据并确定如何使用它,但能够搜索数据湖也很重要。

有效的数据湖搜索功能应包括根据数据资产的大小、来源日期和内容等特征查找数据资产的能力。

由于数据湖通常非常大,因此尝试为每次搜索解析整个数据湖通常是不可行的。相反,建立数据资产索引以促进快速搜索,并定期重建索引以使其保持最新。

4. 确保安全

对于处理数据湖中的数据,数据安全性可能并不总是必不可少的。但它对于遵守合规性要求和确保敏感信息保持私密性至关重要。

要包含在数据湖架构中的基本数据安全最佳实践包括: 

·严格的访问控制可防止非授权方访问或修改数据湖。如果您的数据存储在本地,或者通过云提供商的基于云的数据湖的 IAM 框架,则可以在本地服务器上实施访问控制。

·加密也可以内置到您的数据湖架构中,以帮助防止对数据进行未经授权的访问。但是,请记住,加密不是灵丹妙药。即使数据在存储时被加密,当被应用程序使用时,它也经常被解密,不再受到保护。

2个成功的数据湖架构示例:医疗保健和技术

精心规划的数据湖架构是现代公司(跨各个行业)有效处理数据能力的关键部分。

生物制药数据湖架构

阿斯利康是一家生物制药公司,旨在为全球医学界创新、开发和生产创新药物。使用基于云的数据湖,阿斯利康能够存储和管理 20,000 TB 的数据。该公司能够使用单个数据湖支持多个内部团队,因为他们采用了多方面的数据湖架构和治理策略。

高科技数据湖架构

江森自控为全球客户提供高科技楼宇管理和气候控制解决方案。该公司依靠数据来实现其客户的统一视图。使用基于云的数据湖架构,该公司正在将越来越多的数据操作转移到云中,以便以安全的方式向组织内的所有部门提供数据。

云和数据湖架构的未来

虽然数据湖可以存在于本地,但云基础设施让越来越多的公司更容易构建和管理数据湖。云还有许多额外的好处——包括经济实惠且灵活的存储,以及从任何位置通过网络连接轻松访问基于云的数据湖。

展望未来,云数据仓库成本的降低,加上云兼容数据治理和安全工具的日益复杂,将推动创建更多基于云的数据湖架构。 

与此同时,越来越多的公司采用有助于提高可靠性同时降低成本的多云战略,这意味着更多的组织将构建跨越多个云基础设施的数据湖。由于这些数据湖分布在多个云中,因此组织将不得不依赖来自云提供商的本地工具和第三方解决方案的组合来管理它们。

数据湖架构入门

成功的数据湖架构包括数据治理、数据目录、搜索功能和有效的数据安全性。理想情况下,这些功能将从一开始就内置到您的数据湖架构中。 

但是,即使对于已经创建的数据湖,将这些功能添加到架构中也是可行的,特别是如果您利用工具来自动化创建数据目录和治理框架所需的流程。

 


(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 数据治理2.0:2018年最值得关注的数据

    数据治理2.0:2018年最值得关注的数据

    今年,我们将在震中的Data Governance 2.0中看到我们收集,存储和使用数据的方式发生了巨大变化。对于许多组织而言,这些变化……查看详情

    发布时间:2019.01.25来源:亿信华辰浏览量:101次

  • 主数据管理第一步——识别主数据

    主数据管理第一步——识别主数据

    主数据管理的目的就是为了确保企业核心数据的准确性、一致性、稳定性,打破数据孤岛,帮助企业高效运转。然而在茫茫数据大海中识别出主数据是一项……查看详情

    发布时间:2019.10.24来源:亿信华辰浏览量:65次

  • 中小银行数据治理工作所面临的问题

    中小银行数据治理工作所面临的问题

    虽然各银行积极响应监管要求,开展数据治理工作,但《中小银行金融科技发展研究报告(2019)》显示中小银行的数据治理基本处于萌芽期,达91……查看详情

    发布时间:2020.07.09来源:小亿浏览量:103次

  • 数据治理及其在激励数据中的作用

    数据治理及其在激励数据中的作用

    数据治理是一种包罗万象的数据工程和数据管理概念,组织采用该概念来确保整个数据生命周期中的高质量数据。此概念基于四个概念 - 可用性,适用……查看详情

    发布时间:2018.12.18来源:数据治理浏览量:88次

  • 关于数据标准认识的几个误区

    关于数据标准认识的几个误区

    数据标准这个词,最早是在金融行业,特别是银行业的数据治理中开始使用的。数据标准工作一直是数据治理中的重要基础性内容。但是对于数据标准,不……查看详情

    发布时间:2020.11.13来源:知乎浏览量:68次

  • 企业数据治理战略中的重要任务

    企业数据治理战略中的重要任务

    尽管许多企业的数据治理在被不经意间悄悄地忽视了,只有48%的企业拥有明确的规划或计划,但这并不影响数据治理的重要性,它聚焦于三个关键因素……查看详情

    发布时间:2020.07.14来源:知乎浏览量:65次

  • 数据治理——银行将被如何规范?

    数据治理——银行将被如何规范?

    我们认为,此番对数据治理的指引,未来可能会被其他金融监管机构作为范本,约束互联网金融或其他业态的数据治理行为,因此,具有学习和研究价值。……查看详情

    发布时间:2019.01.18来源:亿信华辰浏览量:84次

  • 理解数据治理

    理解数据治理

    专注于商业智能(bi)市场,深入了解组织在数据管理策略方面所面临的一些共同挑战。……查看详情

    发布时间:2019.01.09来源:亿信华辰浏览量:64次

  • 浅谈数据质量管理

    浅谈数据质量管理

    随着互联网及数字化技术的飞速发展,我们生活在一个数字化转型的时代,各种数字化正在实实在在的改变着企业的日常运营,以及我们每个人的衣食住行……查看详情

    发布时间:2019.07.26来源:知乎浏览量:75次

  • 大数据治理需要具备哪些能力和关键技术?

    大数据治理需要具备哪些能力和关键技术?

    在企业数据建设过程中,大数据治理受到越来越多的重视。从企业数据资产管理和提升数据质量,到自服务和智能化的数据应用,大数据治理的内容在不断……查看详情

    发布时间:2019.11.22来源:CSDN浏览量:131次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议