数据湖治理最佳实践

发布时间:2019.03.11来源:亿信华辰浏览量:78次标签:数据治理


Data Lakes正在成为一种越来越可行的解决方案,用于在企业级从大数据中提取价值,并为早期采用者和新移民提供合乎逻辑的下一步。在隔离的逻辑区域中提供结构化,非结构化和历史数据的灵活性,灵活性和安全性为企业带来了一系列转型功能。然而,许多潜在用户无法理解的是定义可用数据湖的原因。通常,那些刚接触大数据的人,甚至是精通Hadoop的老手,都会尝试使用不同的脚本,工具和第三方供应商来组建几个集群并将它们拼凑在一起; 这既不符合成本效益,也不可持续。在本文中,我们将描述Data Lake如何比拼凑在一起的几个服务器更多:它需要规划,纪律。

在Data Lake中,区域允许数据的逻辑和/或物理分离,从而保护环境的安全,有序和敏捷。通常,鼓励使用3或4个区域,但可以使用更少或更多区域。通用的4区系统可能包括以下内容:

  1. 瞬态区域 - 用于在摄取之前保存短暂数据,例如临时副本,流式线轴或其他短期数据。

  2. 原始区域 - 将维护原始数据的区域。这也是敏感数据必须加密,标记化或以其他方式保护的区域。

  3. 受信任区域 - 对原始区域中的数据执行数据质量,验证或其他处理后,它将成为此区域中下游系统的“真实来源”。

  4. 精制区域  - 操作和丰富的数据保留在此区域中。这用于存储来自Hive或外部工具等工具的输出,这些工具将写入Data Lake。

这种安排可以根据需要适应业务的规模,成熟度和独特用例,但将通过专用服务器/集群实现物理隔离,通过故意构建目录和访问权限进行逻辑分离,或者两者的某种组合。在视觉上,这种架构类似于下面的架构。

建立和维护定义明确的区域是创建健康湖泊的最重要的活动,并促进本文中的其他概念。同时,重要的是要了解哪些区域不提供 - 即区域不是灾难恢复或数据冗余策略。虽然可以在DR中考虑区域,但仍然需要投资于可靠的底层基础架构以确保冗余和恢复力。

血统

随着新数据源的添加以及现有数据源的更新或修改,维护数据集内部和之间关系的记录变得更加重要。这些关系可能像重命名列一样简单,也可能像连接来自不同源的多个表一样复杂,每个表本身可能有多个上游转换。在此上下文中,lineage有助于提供可跟踪性以了解字段或数据集的来源以及审计跟踪,以了解更改的位置,时间和原因。这可能听起来很简单,但是当数据在湖中移动时捕获有关数据的细节非常困难,即使今天部署了一些专门构建的软件。跟踪沿袭的整个过程涉及在事务级别(访问数据和他们做了什么?)以及结构或文件系统级别(数据集和字段之间的关系是什么?)聚合日志。在Data Lake的上下文中,这将包括任何接触数据的批处理和流工具(例如MapReduce和Spark),以及可能操纵数据的任何外部系统,例如RDBMS系统。这是一项艰巨的任务,但即使是部分血统图也可以填补传统系统的空白,特别是随着GDPR等新法规的出现; 灵活性和可扩展性是管理未来变化的关键。这将包括任何触摸数据的批处理和流媒体工具(如MapReduce和Spark),以及任何可能操纵数据的外部系统,如RDBMS系统。这是一项艰巨的任务,但即使是部分血统图也可以填补传统系统的空白,特别是随着GDPR等新法规的出现; 灵活性和可扩展性是管理未来变化的关键。这将包括任何触摸数据的批处理和流媒体工具(如MapReduce和Spark),以及任何可能操纵数据的外部系统,如RDBMS系统。这是一项艰巨的任务,但即使是部分血统图也可以填补传统系统的空白,特别是随着GDPR等新法规的出现; 灵活性和可扩展性是管理未来变化的关键。

数据质量

在Data Lake中,欢迎所有数据,但并非所有数据都相同。因此,定义数据源以及如何管理和使用数据至关重要。严格的清理和数据质量规则可能需要应用于需要合规性,最终用户消耗或可审计性的数据。另一方面,通过清理来自各种物联网设备的社交媒体数据或数据,可以获得很多价值。人们还可以考虑在消费方而不是在采购方应用数据质量检查。因此,单个数据质量体系结构可能不适用于所有类型的数据。必须注意的是,如果数据被“清理”,用于分析的结果可能会产生影响。'固定数据集中的值的字段级数据质量规则可以影响预测模型的结果,因为这些修复可能会影响异常值。通过比较“数据集的预期与接收大小”或“空值阈值”来衡量数据集可用性的数据质量规则可能更适合此类情况。通常,所需验证的级别受传统限制或已经存在的内部流程的影响,因此在设置新规则之前评估公司的现有流程是个好主意。

隐私与安全

健康Data Lake的一个关键组成部分是隐私和安全性,包括基于角色的访问控制,身份验证,授权以及静态和动态数据加密等主题。从纯数据湖和数据管理的角度来看,主要主题往往是数据混淆,包括标记化和数据屏蔽。应该使用这两个概念来帮助数据本身遵守最小特权的安全概念。限制数据访问也对许多希望遵守国家和国际垂直法规的企业具有法律意义。限制访问有几种形式; 最明显的是存储层中区域的大量使用。简而言之,可以配置存储层中的权限,使得以最原始格式访问数据非常有限。

DLM

企业必须努力发展其数据管理战略的重点,以更有效地保护,保护和服务其数字资产。这涉及投入时间和资源来完全创建生命周期管理策略,并确定是使用扁平结构还是利用分层保护。数据生命周期管理的传统前提是基于数据的创建,使用和存档这一事实。今天,这个前提可能适用于某些交易数据,但许多数据源现在从阅读角度保持活跃,无论是持续的还是半可预测的时间间隔。了解并了解其信息,数据和存储介质的异同的企业,

结论

就像它们处于起步阶段的关系数据库一样,近年来Hadoop的一些实现因缺乏最佳实践而受到影响。在考虑将Hadoop用作Data Lake时,需要考虑许多最佳实践。利用区域和适当的授权作为数据工作流框架的一部分,为数据转换提供了高度可扩展的并行系统。 


(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 数据治理运营:差距

    数据治理运营:差距

    今天,全球组织都了解数据治理(DG)是什么,它的好处以及不管理数据的风险。……查看详情

    发布时间:2019.02.14来源:亿信华辰浏览量:68次

  • 全球数据治理体系建设

    全球数据治理体系建设

    数据治理体系建设是推动数字经济高质量发展的关键。美国和欧盟正在加紧构建符合自身利益诉求的数据治理体系,并力图引领全球数据治理,提升数字经……查看详情

    发布时间:2020.01.03来源:知乎浏览量:66次

  • 数据管理自动化框架的五个好处

    数据管理自动化框架的五个好处

    组织负责管理比以往任何时候都多的数据,使一个强大的自动化框架成为必要。但是自动化框架到底是什么,它又有什么关系呢?……查看详情

    发布时间:2019.02.13来源:亿信华辰浏览量:92次

  • 企业架构组织的创新能力如何?

    企业架构组织的创新能力如何?

    回想一下最新的企业架构文章,博客文章,甚至是你读过的职位描述,并算一下至少一次没有提到“创新”的内容?我猜测,“创新”往往被作为有效企业……查看详情

    发布时间:2019.02.26来源:亿信华辰浏览量:83次

  • 重构数据治理的必要性

    重构数据治理的必要性

    拥有管理良好的数据资产并不能确切的保证你的生产业务价值。所以你就需要必备跨不同组件和活动的整体视图。那么这个时候数据治理就显得尤为重要。……查看详情

    发布时间:2018.11.14来源:马克·皮科浏览量:84次

  • 赢得数据治理的五个秘诀

    赢得数据治理的五个秘诀

    到目前为止,您已经意识到拥有出色的数据分析策略还需要拥有良好的数据治理策略。毕竟,如果您的数据无法控制,那么您在其上运行的分析在一天结束……查看详情

    发布时间:2019.02.27来源:亿信华辰浏览量:64次

  • 主数据管理项目之你的主数据如何做“主”

    主数据管理项目之你的主数据如何做“主”

    主数据的定义已经被我们说了太多,今天这篇文章就不说定义,我们聊聊主数据的项目如何实施,主数据如何做“主”。一、主数据建设的术法道随着企业……查看详情

    发布时间:2020.08.28来源:知乎浏览量:88次

  • 如何选择正确的数据治理工具

    如何选择正确的数据治理工具

    通过选择和利用具有嵌入式质量控制的智能和工作流驱动的自助数据治理工具,您可以实施可扩展的信任系统。让我们探索一些方法来为您的团队找到合适……查看详情

    发布时间:2021.06.16来源:亿信数据治理知识库浏览量:63次

  • 怎样避免数据治理里面的坑?

    怎样避免数据治理里面的坑?

    数据治理是一项长期而繁杂的工作,很多时候大家都为如何做好数据治理而感到困惑,甚至很多时候对此失去了信心。怎么避免数据治理这些问题?……查看详情

    发布时间:2018.12.10来源:CSDN浏览量:80次

  • 数据治理模型 - 组织数据质量管理的责任

    数据治理模型 - 组织数据质量管理的责任

    企业需要数据质量管理(DQM),它结合了业务驱动和技术观点,以应对需要高质量企业数据的战略和运营挑战。迄今为止,公司已将DQM的责任主要……查看详情

    发布时间:2018.12.21来源:数据治理浏览量:104次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议