数据湖治理最佳实践

发布时间:2019.03.11来源:亿信华辰浏览量:213次标签:数据治理


Data Lakes正在成为一种越来越可行的解决方案,用于在企业级从大数据中提取价值,并为早期采用者和新移民提供合乎逻辑的下一步。在隔离的逻辑区域中提供结构化,非结构化和历史数据的灵活性,灵活性和安全性为企业带来了一系列转型功能。然而,许多潜在用户无法理解的是定义可用数据湖的原因。通常,那些刚接触大数据的人,甚至是精通Hadoop的老手,都会尝试使用不同的脚本,工具和第三方供应商来组建几个集群并将它们拼凑在一起; 这既不符合成本效益,也不可持续。在本文中,我们将描述Data Lake如何比拼凑在一起的几个服务器更多:它需要规划,纪律。

在Data Lake中,区域允许数据的逻辑和/或物理分离,从而保护环境的安全,有序和敏捷。通常,鼓励使用3或4个区域,但可以使用更少或更多区域。通用的4区系统可能包括以下内容:

  1. 瞬态区域 - 用于在摄取之前保存短暂数据,例如临时副本,流式线轴或其他短期数据。

  2. 原始区域 - 将维护原始数据的区域。这也是敏感数据必须加密,标记化或以其他方式保护的区域。

  3. 受信任区域 - 对原始区域中的数据执行数据质量,验证或其他处理后,它将成为此区域中下游系统的“真实来源”。

  4. 精制区域  - 操作和丰富的数据保留在此区域中。这用于存储来自Hive或外部工具等工具的输出,这些工具将写入Data Lake。

这种安排可以根据需要适应业务的规模,成熟度和独特用例,但将通过专用服务器/集群实现物理隔离,通过故意构建目录和访问权限进行逻辑分离,或者两者的某种组合。在视觉上,这种架构类似于下面的架构。

建立和维护定义明确的区域是创建健康湖泊的最重要的活动,并促进本文中的其他概念。同时,重要的是要了解哪些区域不提供 - 即区域不是灾难恢复或数据冗余策略。虽然可以在DR中考虑区域,但仍然需要投资于可靠的底层基础架构以确保冗余和恢复力。

血统

随着新数据源的添加以及现有数据源的更新或修改,维护数据集内部和之间关系的记录变得更加重要。这些关系可能像重命名列一样简单,也可能像连接来自不同源的多个表一样复杂,每个表本身可能有多个上游转换。在此上下文中,lineage有助于提供可跟踪性以了解字段或数据集的来源以及审计跟踪,以了解更改的位置,时间和原因。这可能听起来很简单,但是当数据在湖中移动时捕获有关数据的细节非常困难,即使今天部署了一些专门构建的软件。跟踪沿袭的整个过程涉及在事务级别(访问数据和他们做了什么?)以及结构或文件系统级别(数据集和字段之间的关系是什么?)聚合日志。在Data Lake的上下文中,这将包括任何接触数据的批处理和流工具(例如MapReduce和Spark),以及可能操纵数据的任何外部系统,例如RDBMS系统。这是一项艰巨的任务,但即使是部分血统图也可以填补传统系统的空白,特别是随着GDPR等新法规的出现; 灵活性和可扩展性是管理未来变化的关键。这将包括任何触摸数据的批处理和流媒体工具(如MapReduce和Spark),以及任何可能操纵数据的外部系统,如RDBMS系统。这是一项艰巨的任务,但即使是部分血统图也可以填补传统系统的空白,特别是随着GDPR等新法规的出现; 灵活性和可扩展性是管理未来变化的关键。这将包括任何触摸数据的批处理和流媒体工具(如MapReduce和Spark),以及任何可能操纵数据的外部系统,如RDBMS系统。这是一项艰巨的任务,但即使是部分血统图也可以填补传统系统的空白,特别是随着GDPR等新法规的出现; 灵活性和可扩展性是管理未来变化的关键。

数据质量

在Data Lake中,欢迎所有数据,但并非所有数据都相同。因此,定义数据源以及如何管理和使用数据至关重要。严格的清理和数据质量规则可能需要应用于需要合规性,最终用户消耗或可审计性的数据。另一方面,通过清理来自各种物联网设备的社交媒体数据或数据,可以获得很多价值。人们还可以考虑在消费方而不是在采购方应用数据质量检查。因此,单个数据质量体系结构可能不适用于所有类型的数据。必须注意的是,如果数据被“清理”,用于分析的结果可能会产生影响。'固定数据集中的值的字段级数据质量规则可以影响预测模型的结果,因为这些修复可能会影响异常值。通过比较“数据集的预期与接收大小”或“空值阈值”来衡量数据集可用性的数据质量规则可能更适合此类情况。通常,所需验证的级别受传统限制或已经存在的内部流程的影响,因此在设置新规则之前评估公司的现有流程是个好主意。

隐私与安全

健康Data Lake的一个关键组成部分是隐私和安全性,包括基于角色的访问控制,身份验证,授权以及静态和动态数据加密等主题。从纯数据湖和数据管理的角度来看,主要主题往往是数据混淆,包括标记化和数据屏蔽。应该使用这两个概念来帮助数据本身遵守最小特权的安全概念。限制数据访问也对许多希望遵守国家和国际垂直法规的企业具有法律意义。限制访问有几种形式; 最明显的是存储层中区域的大量使用。简而言之,可以配置存储层中的权限,使得以最原始格式访问数据非常有限。

DLM

企业必须努力发展其数据管理战略的重点,以更有效地保护,保护和服务其数字资产。这涉及投入时间和资源来完全创建生命周期管理策略,并确定是使用扁平结构还是利用分层保护。数据生命周期管理的传统前提是基于数据的创建,使用和存档这一事实。今天,这个前提可能适用于某些交易数据,但许多数据源现在从阅读角度保持活跃,无论是持续的还是半可预测的时间间隔。了解并了解其信息,数据和存储介质的异同的企业,

结论

就像它们处于起步阶段的关系数据库一样,近年来Hadoop的一些实现因缺乏最佳实践而受到影响。在考虑将Hadoop用作Data Lake时,需要考虑许多最佳实践。利用区域和适当的授权作为数据工作流框架的一部分,为数据转换提供了高度可扩展的并行系统。 


(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 避免这五大数据治​​理错误

    避免这五大数据治​​理错误

    如果您正在开始一个大数据项目,那么您可能会遇到一个或多个数据管理挑战。您就如何实施数据治理以及如何控制数据流所做出的决策可能会影响您的项……查看详情

    发布时间:2019.02.27来源:亿信华辰浏览量:171次

  • 为什么企业架构需要成熟度模型

    为什么企业架构需要成熟度模型

    跑步之前走路。我们已经听过一百万次了,引用了几乎同样多的不同学科。然而,由于时间有限,想要快速完成任务往往是人性。然而,就像我们的第一步……查看详情

    发布时间:2019.02.26来源:亿信华辰浏览量:199次

  • 建立成功的数据治理战略

    建立成功的数据治理战略

    组织当前正在努力解决的数据分析的核心要素之一是数据治理。如果组织没有花时间构建和实施治理策略,那么组织可以做正确的事情并且仍然想知道为什……查看详情

    发布时间:2018.12.14来源:数据治理浏览量:180次

  • 数据建模和数据映射:来自任何数据的结果

    数据建模和数据映射:来自任何数据的结果

    统一的数据建模和数据映射方法可能是许多数据驱动型组织所需要的突破。在我与客户进行的大多数对话中,他们表示需要一个可行的解决方案来模拟他……查看详情

    发布时间:2019.01.17来源:亿信华辰浏览量:309次

  • 数据治理到底应该怎么治?

    数据治理到底应该怎么治?

    数据到底怎么治,这确实是一个宽泛的话题,首先是要明确治理的内容。针对不同的治理内容采取不同的数据治理策略。关于小数据和大数据的治理侧重点……查看详情

    发布时间:2020.07.07来源:知乎浏览量:192次

  • 数据质量是什么,企业数据质量分析怎么做?

    数据质量是什么,企业数据质量分析怎么做?

    现在大数据时代,数据充斥于我们的生活、工作、学习中。随着数据增加的来源和速度越来越多、越来越快,企业纷纷在努力的解决出现的这些问题,以及……查看详情

    发布时间:2019.09.26来源:数据分析网浏览量:194次

  • 数据治理的数据架构:主动方法

    数据治理的数据架构:主动方法

    “数据架构是业务战略的物理实现,” 全球数据战略有限公司 EMEA首席顾问Nigel Turner在DATAVERSITY® 企业数据治……查看详情

    发布时间:2019.01.17来源:数据治理浏览量:192次

  • 数据治理——精细科学的政策平衡

    数据治理——精细科学的政策平衡

    数据泄露、滥用、歧视这些负面事件如同天空中的阴霾,不断加深着人们对数据治理的悲观情绪。   的确,这一年被数据泄露贯穿始终,规模日……查看详情

    发布时间:2019.01.08来源:亿信华辰浏览量:173次

  • 大数据在应急管理中的应用——亿信华辰

    大数据在应急管理中的应用——亿信华辰

    随着互联网、社交媒体和人工智能的技术发展和应用普及,大数据在应急管理中发挥的作用将越来越重要,是应急管理未来发展的重要方向之一。……查看详情

    发布时间:2019.02.25来源:亿信华辰浏览量:191次

  • 增强数据管理吸引了更多企业的兴趣

    增强数据管理吸引了更多企业的兴趣

    “我认为数据专业人员确实希望机器处理繁琐且计算密集的东西,”Henschen说。“有很多工作要做,让机器处理他们最擅长的事情,这将使人类……查看详情

    发布时间:2019.03.07来源:亿信华辰浏览量:189次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议