数据湖治理最佳实践

发布时间:2019.03.11来源:亿信华辰浏览量:112次标签:数据治理


Data Lakes正在成为一种越来越可行的解决方案,用于在企业级从大数据中提取价值,并为早期采用者和新移民提供合乎逻辑的下一步。在隔离的逻辑区域中提供结构化,非结构化和历史数据的灵活性,灵活性和安全性为企业带来了一系列转型功能。然而,许多潜在用户无法理解的是定义可用数据湖的原因。通常,那些刚接触大数据的人,甚至是精通Hadoop的老手,都会尝试使用不同的脚本,工具和第三方供应商来组建几个集群并将它们拼凑在一起; 这既不符合成本效益,也不可持续。在本文中,我们将描述Data Lake如何比拼凑在一起的几个服务器更多:它需要规划,纪律。

在Data Lake中,区域允许数据的逻辑和/或物理分离,从而保护环境的安全,有序和敏捷。通常,鼓励使用3或4个区域,但可以使用更少或更多区域。通用的4区系统可能包括以下内容:

  1. 瞬态区域 - 用于在摄取之前保存短暂数据,例如临时副本,流式线轴或其他短期数据。

  2. 原始区域 - 将维护原始数据的区域。这也是敏感数据必须加密,标记化或以其他方式保护的区域。

  3. 受信任区域 - 对原始区域中的数据执行数据质量,验证或其他处理后,它将成为此区域中下游系统的“真实来源”。

  4. 精制区域  - 操作和丰富的数据保留在此区域中。这用于存储来自Hive或外部工具等工具的输出,这些工具将写入Data Lake。

这种安排可以根据需要适应业务的规模,成熟度和独特用例,但将通过专用服务器/集群实现物理隔离,通过故意构建目录和访问权限进行逻辑分离,或者两者的某种组合。在视觉上,这种架构类似于下面的架构。

建立和维护定义明确的区域是创建健康湖泊的最重要的活动,并促进本文中的其他概念。同时,重要的是要了解哪些区域不提供 - 即区域不是灾难恢复或数据冗余策略。虽然可以在DR中考虑区域,但仍然需要投资于可靠的底层基础架构以确保冗余和恢复力。

血统

随着新数据源的添加以及现有数据源的更新或修改,维护数据集内部和之间关系的记录变得更加重要。这些关系可能像重命名列一样简单,也可能像连接来自不同源的多个表一样复杂,每个表本身可能有多个上游转换。在此上下文中,lineage有助于提供可跟踪性以了解字段或数据集的来源以及审计跟踪,以了解更改的位置,时间和原因。这可能听起来很简单,但是当数据在湖中移动时捕获有关数据的细节非常困难,即使今天部署了一些专门构建的软件。跟踪沿袭的整个过程涉及在事务级别(访问数据和他们做了什么?)以及结构或文件系统级别(数据集和字段之间的关系是什么?)聚合日志。在Data Lake的上下文中,这将包括任何接触数据的批处理和流工具(例如MapReduce和Spark),以及可能操纵数据的任何外部系统,例如RDBMS系统。这是一项艰巨的任务,但即使是部分血统图也可以填补传统系统的空白,特别是随着GDPR等新法规的出现; 灵活性和可扩展性是管理未来变化的关键。这将包括任何触摸数据的批处理和流媒体工具(如MapReduce和Spark),以及任何可能操纵数据的外部系统,如RDBMS系统。这是一项艰巨的任务,但即使是部分血统图也可以填补传统系统的空白,特别是随着GDPR等新法规的出现; 灵活性和可扩展性是管理未来变化的关键。这将包括任何触摸数据的批处理和流媒体工具(如MapReduce和Spark),以及任何可能操纵数据的外部系统,如RDBMS系统。这是一项艰巨的任务,但即使是部分血统图也可以填补传统系统的空白,特别是随着GDPR等新法规的出现; 灵活性和可扩展性是管理未来变化的关键。

数据质量

在Data Lake中,欢迎所有数据,但并非所有数据都相同。因此,定义数据源以及如何管理和使用数据至关重要。严格的清理和数据质量规则可能需要应用于需要合规性,最终用户消耗或可审计性的数据。另一方面,通过清理来自各种物联网设备的社交媒体数据或数据,可以获得很多价值。人们还可以考虑在消费方而不是在采购方应用数据质量检查。因此,单个数据质量体系结构可能不适用于所有类型的数据。必须注意的是,如果数据被“清理”,用于分析的结果可能会产生影响。'固定数据集中的值的字段级数据质量规则可以影响预测模型的结果,因为这些修复可能会影响异常值。通过比较“数据集的预期与接收大小”或“空值阈值”来衡量数据集可用性的数据质量规则可能更适合此类情况。通常,所需验证的级别受传统限制或已经存在的内部流程的影响,因此在设置新规则之前评估公司的现有流程是个好主意。

隐私与安全

健康Data Lake的一个关键组成部分是隐私和安全性,包括基于角色的访问控制,身份验证,授权以及静态和动态数据加密等主题。从纯数据湖和数据管理的角度来看,主要主题往往是数据混淆,包括标记化和数据屏蔽。应该使用这两个概念来帮助数据本身遵守最小特权的安全概念。限制数据访问也对许多希望遵守国家和国际垂直法规的企业具有法律意义。限制访问有几种形式; 最明显的是存储层中区域的大量使用。简而言之,可以配置存储层中的权限,使得以最原始格式访问数据非常有限。

DLM

企业必须努力发展其数据管理战略的重点,以更有效地保护,保护和服务其数字资产。这涉及投入时间和资源来完全创建生命周期管理策略,并确定是使用扁平结构还是利用分层保护。数据生命周期管理的传统前提是基于数据的创建,使用和存档这一事实。今天,这个前提可能适用于某些交易数据,但许多数据源现在从阅读角度保持活跃,无论是持续的还是半可预测的时间间隔。了解并了解其信息,数据和存储介质的异同的企业,

结论

就像它们处于起步阶段的关系数据库一样,近年来Hadoop的一些实现因缺乏最佳实践而受到影响。在考虑将Hadoop用作Data Lake时,需要考虑许多最佳实践。利用区域和适当的授权作为数据工作流框架的一部分,为数据转换提供了高度可扩展的并行系统。 


(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 数据治理实践与应用场景:治理的应用拓展与价值实现

    数据治理实践与应用场景:治理的应用拓展与价值实现

    数据治理体系是构建完善、共享、统一管理数据的基本保障和重要组成部分,是把数据当作自测来管理的有效手段。……查看详情

    发布时间:2019.09.09来源:知乎浏览量:147次

  • 数据湖中的数据管理与治理

    数据湖中的数据管理与治理

    当您转换到数据湖时,选择完全集成的数据湖泊管理平台将使您对数据充满信心,并对其进行扩展以包含越来越多的用户和有利于业务的用例。毕竟,这就……查看详情

    发布时间:2019.03.05来源:亿信华辰浏览量:160次

  • 值得关注的 5 大数据治理工具

    值得关注的 5 大数据治理工具

    一旦数据治理策略的广泛目标最终确定,您就需要开始寻找适合您的框架和数据操作的数据治理工具。让我们来看看一些关键的数据治理工具以及它们如何……查看详情

    发布时间:2021.08.10来源:亿信数据治理知识库浏览量:364次

  • 未来我国大数据发展还有哪些机遇和挑战?

    未来我国大数据发展还有哪些机遇和挑战?

    随着信息技术和人类生产生活交汇融合,全球数据呈现爆发增长、海量集聚的特点。无论是国家、企业还是社会公众,都越来越认识到数据的价值。……查看详情

    发布时间:2019.03.18来源:亿信华辰浏览量:136次

  • 大数据治理需要具备哪些能力和关键技术

    大数据治理需要具备哪些能力和关键技术

    从企业的数据资产管理和提升数据质量等的数据应用上,大数据治理的内容在不断地发展和完善,在其落地实施的过程中面临着巨大的挑战。我们现在通过……查看详情

    发布时间:2019.08.13来源:知乎浏览量:126次

  • 从数据管理开始 才能为人工智能的成功做好准备

    从数据管理开始 才能为人工智能的成功做好准备

    如果你已经决定在今年做更多的人工智能实验,请首先仔细研究您的数据管理实践。……查看详情

    发布时间:2019.02.15来源:亿信华辰浏览量:110次

  • 数据治理新挑战:数据要素大规模流动

    数据治理新挑战:数据要素大规模流动

    “我们谈论大数据的时候在谈什么?”“数据生产要素、数据治理、隐私计算……这些都是关键词。”7月24日下午,2020年中国互联网大会“数据……查看详情

    发布时间:2020.07.31来源:知乎浏览量:150次

  • 常见的主数据管理问题

    常见的主数据管理问题

    主数据管理,包括不仅仅是硬件和软件,还是将数据作为重要资产管理的思想和办法,是指一整套的用于生成和维护企业主数据的规范、技术和方案,以保……查看详情

    发布时间:2020.12.05来源:知乎浏览量:334次

  • 大数据是大问题?组织需要为数据管理负责

    大数据是大问题?组织需要为数据管理负责

    如果数据收集在2018年让人们明白一件事的话,那就是使用数据的公司与商业模式依赖数据利用的公司之间存在一条明显而深刻的界线。由于剑桥分析……查看详情

    发布时间:2019.04.09来源:亿信华辰浏览量:112次

  • 从数据中台到AI中台

    从数据中台到AI中台

    企业对数据的利用有三个阶段:响应运营,响应业务,创造业务。数据中台解决的是响应业务的问题,第三阶段“创造业务”,则需要AI中台。1、数据……查看详情

    发布时间:2019.03.14来源:亿信华辰浏览量:116次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议