数据湖治理最佳实践

发布时间:2019.03.11来源:亿信华辰浏览量:60次标签:数据治理


Data Lakes正在成为一种越来越可行的解决方案,用于在企业级从大数据中提取价值,并为早期采用者和新移民提供合乎逻辑的下一步。在隔离的逻辑区域中提供结构化,非结构化和历史数据的灵活性,灵活性和安全性为企业带来了一系列转型功能。然而,许多潜在用户无法理解的是定义可用数据湖的原因。通常,那些刚接触大数据的人,甚至是精通Hadoop的老手,都会尝试使用不同的脚本,工具和第三方供应商来组建几个集群并将它们拼凑在一起; 这既不符合成本效益,也不可持续。在本文中,我们将描述Data Lake如何比拼凑在一起的几个服务器更多:它需要规划,纪律。

在Data Lake中,区域允许数据的逻辑和/或物理分离,从而保护环境的安全,有序和敏捷。通常,鼓励使用3或4个区域,但可以使用更少或更多区域。通用的4区系统可能包括以下内容:

  1. 瞬态区域 - 用于在摄取之前保存短暂数据,例如临时副本,流式线轴或其他短期数据。

  2. 原始区域 - 将维护原始数据的区域。这也是敏感数据必须加密,标记化或以其他方式保护的区域。

  3. 受信任区域 - 对原始区域中的数据执行数据质量,验证或其他处理后,它将成为此区域中下游系统的“真实来源”。

  4. 精制区域  - 操作和丰富的数据保留在此区域中。这用于存储来自Hive或外部工具等工具的输出,这些工具将写入Data Lake。

这种安排可以根据需要适应业务的规模,成熟度和独特用例,但将通过专用服务器/集群实现物理隔离,通过故意构建目录和访问权限进行逻辑分离,或者两者的某种组合。在视觉上,这种架构类似于下面的架构。

建立和维护定义明确的区域是创建健康湖泊的最重要的活动,并促进本文中的其他概念。同时,重要的是要了解哪些区域不提供 - 即区域不是灾难恢复或数据冗余策略。虽然可以在DR中考虑区域,但仍然需要投资于可靠的底层基础架构以确保冗余和恢复力。

血统

随着新数据源的添加以及现有数据源的更新或修改,维护数据集内部和之间关系的记录变得更加重要。这些关系可能像重命名列一样简单,也可能像连接来自不同源的多个表一样复杂,每个表本身可能有多个上游转换。在此上下文中,lineage有助于提供可跟踪性以了解字段或数据集的来源以及审计跟踪,以了解更改的位置,时间和原因。这可能听起来很简单,但是当数据在湖中移动时捕获有关数据的细节非常困难,即使今天部署了一些专门构建的软件。跟踪沿袭的整个过程涉及在事务级别(访问数据和他们做了什么?)以及结构或文件系统级别(数据集和字段之间的关系是什么?)聚合日志。在Data Lake的上下文中,这将包括任何接触数据的批处理和流工具(例如MapReduce和Spark),以及可能操纵数据的任何外部系统,例如RDBMS系统。这是一项艰巨的任务,但即使是部分血统图也可以填补传统系统的空白,特别是随着GDPR等新法规的出现; 灵活性和可扩展性是管理未来变化的关键。这将包括任何触摸数据的批处理和流媒体工具(如MapReduce和Spark),以及任何可能操纵数据的外部系统,如RDBMS系统。这是一项艰巨的任务,但即使是部分血统图也可以填补传统系统的空白,特别是随着GDPR等新法规的出现; 灵活性和可扩展性是管理未来变化的关键。这将包括任何触摸数据的批处理和流媒体工具(如MapReduce和Spark),以及任何可能操纵数据的外部系统,如RDBMS系统。这是一项艰巨的任务,但即使是部分血统图也可以填补传统系统的空白,特别是随着GDPR等新法规的出现; 灵活性和可扩展性是管理未来变化的关键。

数据质量

在Data Lake中,欢迎所有数据,但并非所有数据都相同。因此,定义数据源以及如何管理和使用数据至关重要。严格的清理和数据质量规则可能需要应用于需要合规性,最终用户消耗或可审计性的数据。另一方面,通过清理来自各种物联网设备的社交媒体数据或数据,可以获得很多价值。人们还可以考虑在消费方而不是在采购方应用数据质量检查。因此,单个数据质量体系结构可能不适用于所有类型的数据。必须注意的是,如果数据被“清理”,用于分析的结果可能会产生影响。'固定数据集中的值的字段级数据质量规则可以影响预测模型的结果,因为这些修复可能会影响异常值。通过比较“数据集的预期与接收大小”或“空值阈值”来衡量数据集可用性的数据质量规则可能更适合此类情况。通常,所需验证的级别受传统限制或已经存在的内部流程的影响,因此在设置新规则之前评估公司的现有流程是个好主意。

隐私与安全

健康Data Lake的一个关键组成部分是隐私和安全性,包括基于角色的访问控制,身份验证,授权以及静态和动态数据加密等主题。从纯数据湖和数据管理的角度来看,主要主题往往是数据混淆,包括标记化和数据屏蔽。应该使用这两个概念来帮助数据本身遵守最小特权的安全概念。限制数据访问也对许多希望遵守国家和国际垂直法规的企业具有法律意义。限制访问有几种形式; 最明显的是存储层中区域的大量使用。简而言之,可以配置存储层中的权限,使得以最原始格式访问数据非常有限。

DLM

企业必须努力发展其数据管理战略的重点,以更有效地保护,保护和服务其数字资产。这涉及投入时间和资源来完全创建生命周期管理策略,并确定是使用扁平结构还是利用分层保护。数据生命周期管理的传统前提是基于数据的创建,使用和存档这一事实。今天,这个前提可能适用于某些交易数据,但许多数据源现在从阅读角度保持活跃,无论是持续的还是半可预测的时间间隔。了解并了解其信息,数据和存储介质的异同的企业,

结论

就像它们处于起步阶段的关系数据库一样,近年来Hadoop的一些实现因缺乏最佳实践而受到影响。在考虑将Hadoop用作Data Lake时,需要考虑许多最佳实践。利用区域和适当的授权作为数据工作流框架的一部分,为数据转换提供了高度可扩展的并行系统。 


(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 数据治理:它是什么以及它为什么重要?

    数据治理:它是什么以及它为什么重要?

    数据治理:它是什么以及它为什么重要?……查看详情

    发布时间:2018.12.26来源:亿信华辰浏览量:60次

  • 数据管理和分析趋势正在改变世界

    数据管理和分析趋势正在改变世界

    现在的数据世界正在发生什么,它将如何影响2018年的市场?比如这些头条新闻:人工智能无处不在,并将改变一切;企业继续将他们的基础设施和数……查看详情

    发布时间:2019.01.03来源:bingdata123浏览量:50次

  • 读懂工业大数据 这篇文章不得不看

    读懂工业大数据 这篇文章不得不看

    工业大数据是互联网、大数据和工业产业结合的产物,是中国制造2025、工业互联网、工业4.0等国家战略在企业的落脚点。……查看详情

    发布时间:2019.03.27来源:亿信华辰浏览量:60次

  • 不要欺骗自己关于数据管理

    不要欺骗自己关于数据管理

    采用数据战略的早期阶段通常涉及数据管理的临时方法。企业不是投资于一套新工具,而是倾向于使用已经完成的工作,从小规模开始并最终形成方法。……查看详情

    发布时间:2019.02.25来源:亿信华辰浏览量:59次

  • 数据质量监控

    数据质量监控

    数据质量监控可以分为数据质量的事前预防控制、事中过程控制和事后监督控制:……查看详情

    发布时间:2019.12.06来源:知乎浏览量:56次

  • 数据治理工作的难点主要体现在那些方面?

    数据治理工作的难点主要体现在那些方面?

    由哪个部门主导;人员应该怎样配置;各个数据治理角色的职责分别是什么。这些一定需要明确,一个职责分工明确的团队将更好的推进数据治理工作。建……查看详情

    发布时间:2019.09.18来源:知乎浏览量:69次

  • 数据治理——企业数字化转型的必经之路

    数据治理——企业数字化转型的必经之路

    主要介绍了数字化转型内涵及发展路径、数据治理为数字化转型提供基础支撑、企业级数据治理整体解决方案。……查看详情

    发布时间:2021.12.31来源:浏览量:115次

  • 大数据是大问题?组织需要为数据管理负责

    大数据是大问题?组织需要为数据管理负责

    如果数据收集在2018年让人们明白一件事的话,那就是使用数据的公司与商业模式依赖数据利用的公司之间存在一条明显而深刻的界线。由于剑桥分析……查看详情

    发布时间:2019.04.09来源:亿信华辰浏览量:42次

  • 一文说清数据资产

    一文说清数据资产

    为什么说数据是资产何为数据资产,首页我们先了解一下数据到底是什么?按照一般的定义,数据就是数值,是通过我们的观察、实验和计算得出的结果。……查看详情

    发布时间:2020.07.17来源:CSDN浏览量:47次

  • 如何成功实现数据治理

    如何成功实现数据治理

    如果你处理过大量数据,你也许听说过“数据治理”一词,你可能会想,它是什么?适不适合你?如何实施?简单来说,数据治理就是处理数据的策略——……查看详情

    发布时间:2020.03.19来源:知乎浏览量:58次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议