数据湖架构 - 最佳实践指南

发布时间:2021.06.18来源:亿信数据治理知识库浏览量:22次标签:数据治理

实施正确的数据湖架构对于将数据转化为价值至关重要。无论您的数据湖中有多少数据,如果您缺乏有效管理数据、跟踪数据并确保其安全的架构特性,那么数据将毫无用处。

什么是数据湖架构?

什么是数据湖

一个数据湖是在其“原始”格式的信息库,这意味着在它时,它首先被收集并添加到存储池中存在的格式。数据湖中的数据可以采用多种形式,并且没有任何特定的排列方式。

数据湖的架构是指数据湖中包含的功能,以便更轻松地处理该数据。尽管数据湖是非结构化的,但确保它们提供您的组织所需的功能和设计特性以便轻松地与它们所容纳的数据进行交互仍然很重要。

4个数据湖架构最佳实践方法

从一开始就将正确的功能构建到您的数据湖架构中对于确保您能够以所需的方式处理数据至关重要。

1. 建立治理

数据治理是指组织用来确保数据能够实现其预期目的的流程、标准和指标。数据治理还有助于实现有效的数据质量和数据安全。如果没有有效的数据治理,您就缺乏系统化且可预测的数据管理方法。 

在您的数据湖架构中包含数据治理需要从一开始就建立正确的流程、标准和指标。例如,为了标准化文件大小,通常明智的做法是为数据湖中的数据设置文件大小限制。过大的文件会使您的数据难以处理。

同样,您的数据团队应该创建一个流程来识别数据湖中的数据质量问题。理想情况下,通过扫描数据湖寻找数据质量问题的迹象,例如不完整或不可读的数据,该过程将尽可能自动化。

2. 创建数据目录

一个数据目录是有关数据的湖泊中存在的数据信息来源。其目的是使组织内外的利益相关者能够轻松了解数据的上下文,以便他们能够快速处理数据。

数据目录中包含的确切信息类型可能有所不同,但通常包括以下项目: 

·--哪些连接器是处理数据所必需的。

·--关于每个数据资产的来源和存储时间的元数据。

·--哪些应用程序使用数据的描述。

如果您从一开始就在数据湖架构中包含一个数据目录,那么随着数据湖的扩展,可以轻松扩展目录并使其保持最新状态。为此,首先根据组织的需要确定将在数据目录中包含哪些类型的信息。然后,部署工具,通过扫描添加到湖中的每个新数据资产,将条目自动添加到数据目录中。

3. 启用搜索

虽然数据目录提供了一种工具来帮助利益相关者在数据湖中找到他们需要的数据并确定如何使用它,但能够搜索数据湖也很重要。

有效的数据湖搜索功能应包括根据数据资产的大小、来源日期和内容等特征查找数据资产的能力。

由于数据湖通常非常大,因此尝试为每次搜索解析整个数据湖通常是不可行的。相反,建立数据资产索引以促进快速搜索,并定期重建索引以使其保持最新。

4. 确保安全

对于处理数据湖中的数据,数据安全性可能并不总是必不可少的。但它对于遵守合规性要求和确保敏感信息保持私密性至关重要。

要包含在数据湖架构中的基本数据安全最佳实践包括: 

·严格的访问控制可防止非授权方访问或修改数据湖。如果您的数据存储在本地,或者通过云提供商的基于云的数据湖的 IAM 框架,则可以在本地服务器上实施访问控制。

·加密也可以内置到您的数据湖架构中,以帮助防止对数据进行未经授权的访问。但是,请记住,加密不是灵丹妙药。即使数据在存储时被加密,当被应用程序使用时,它也经常被解密,不再受到保护。

2个成功的数据湖架构示例:医疗保健和技术

精心规划的数据湖架构是现代公司(跨各个行业)有效处理数据能力的关键部分。

生物制药数据湖架构

阿斯利康是一家生物制药公司,旨在为全球医学界创新、开发和生产创新药物。使用基于云的数据湖,阿斯利康能够存储和管理 20,000 TB 的数据。该公司能够使用单个数据湖支持多个内部团队,因为他们采用了多方面的数据湖架构和治理策略。

高科技数据湖架构

江森自控为全球客户提供高科技楼宇管理和气候控制解决方案。该公司依靠数据来实现其客户的统一视图。使用基于云的数据湖架构,该公司正在将越来越多的数据操作转移到云中,以便以安全的方式向组织内的所有部门提供数据。

云和数据湖架构的未来

虽然数据湖可以存在于本地,但云基础设施让越来越多的公司更容易构建和管理数据湖。云还有许多额外的好处——包括经济实惠且灵活的存储,以及从任何位置通过网络连接轻松访问基于云的数据湖。

展望未来,云数据仓库成本的降低,加上云兼容数据治理和安全工具的日益复杂,将推动创建更多基于云的数据湖架构。 

与此同时,越来越多的公司采用有助于提高可靠性同时降低成本的多云战略,这意味着更多的组织将构建跨越多个云基础设施的数据湖。由于这些数据湖分布在多个云中,因此组织将不得不依赖来自云提供商的本地工具和第三方解决方案的组合来管理它们。

数据湖架构入门

成功的数据湖架构包括数据治理、数据目录、搜索功能和有效的数据安全性。理想情况下,这些功能将从一开始就内置到您的数据湖架构中。 

但是,即使对于已经创建的数据湖,将这些功能添加到架构中也是可行的,特别是如果您利用工具来自动化创建数据目录和治理框架所需的流程。

 


(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 数据治理能否提升数据安全性?

    数据治理能否提升数据安全性?

    大数据技术的快速发展不断催生新的产业形态,正成为经济社会发展的新动能。在·发展数字经济、加快培育发展数据要素市场,必须把保障数据安全放在……查看详情

    发布时间:2022.03.07来源:小亿浏览量:24次

  • 2019年专注于稳健数据治理的合规性,质量和定制

    2019年专注于稳健数据治理的合规性,质量和定制

    数据治理,组织内数据的正确和有组织的管理,仍然是2019年的一个焦点。对于希望充分利用其数据的组织,他们必须建立系统以确保数据的正确性,……查看详情

    发布时间:2019.03.26来源:亿信华辰浏览量:8次

  • 数据交换服务组件介绍

    数据交换服务组件介绍

    数据交换服务组件,在遵循一定的交换策略条件下进行数据交换及消息传递,支持数据资源在不同单位、不同区域的快速交换和共享,提供配置工具生成交……查看详情

    发布时间:2020.08.12来源:知乎浏览量:16次

  • 多措并举提升银行业数据治理能力

    多措并举提升银行业数据治理能力

    数据治理是银行业高质量发展的必由之路,当前银行业的数字化转型面临一些挑战和不足,要从建立数据治理架构、统一数据标准、加强数据分析应用等方……查看详情

    发布时间:2019.11.29来源:知乎浏览量:14次

  • 数据质量对数据治理的重要性!

    数据质量对数据治理的重要性!

    人常说“失之毫厘,差之千里”,在数据来源多样化的情况下,数据的可靠性和实用性,直接影响到统计分析是否得到正确的结论,所以说数据的质量尤为……查看详情

    发布时间:2019.11.01来源:知乎浏览量:7次

  • 运用大数据加快推进科技治理能力现代化

    运用大数据加快推进科技治理能力现代化

    习近平总书记指出:“要运用大数据提升国家治理现代化水平。要建立健全大数据辅助科学决策和社会治理的机制,推进政府管理和社会治理模式创新,实……查看详情

    发布时间:2019.03.25来源:亿信华辰浏览量:17次

  • 数据治理和信任—让你的数据如水般清澈

    数据治理和信任—让你的数据如水般清澈

    根据相关报告,数据治理是“对数据相关事务的决策和权限的行使。”换句话说,它是对必须根据特定标准进行的任何数据输入的控制 。2019年,组……查看详情

    发布时间:2019.06.28来源:知乎浏览量:7次

  • 基础数据标准 – 从制定到落实

    基础数据标准 – 从制定到落实

    标准,是旨在一定范围内维护最佳秩序,经协商一致制定并公开颁布认定、共同遵循的一种规范性要求。……查看详情

    发布时间:2019.12.20来源:知乎浏览量:22次

  • 人工智能治理应当起步

    人工智能治理应当起步

    人工智能正在以前所未有的速度发展,大大超出了人们的预期,目前全球活跃人工智能企业达到了5000家左右。据相关预测,到2022年全球人工智……查看详情

    发布时间:2019.10.18来源:中国经营报浏览量:9次

  • 案例研究:亚利桑那州实施全州数据治理模型

    案例研究:亚利桑那州实施全州数据治理模型

    亚利桑那州战略企业技术办公室(ADOA-ASET) - 亚利桑那州管理局状态数据管理架构师Jeff Wolkove和能力成熟度模型研究所……查看详情

    发布时间:2018.12.06来源:Amber Lee Dennis浏览量:17次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议