大数据治理——元数据是关键

发布时间:2018.12.03来源:数据管理浏览量:89次标签:数据治理

在大数据时代,当数据以多种格式分散在整个企业中并且来自许多来源时,需要一种新的数据治理方法。
随着可用数据的数量、种类和速度都在以惊人的速度持续增长,企业面临着两个紧迫的挑战:如何发现这些数据中的可操作的洞察力,以及如何保护它。这两个挑战直接取决于数据治理的高水平。 
Hadoop生态系统可以使用元数据方法提供这种级别的治理,理想情况下是在单个数据平台上。

需要一种新的治理方法有以下几个原因。在大数据时代,数据分散在整个企业中。它是结构化的、非结构化的、半结构化的和各种其他格式。此外,数据源不在需要管理的团队的控制之下。

在这种环境下,数据治理包括三个重要目标:
保持数据质量
实现访问控制和其他数据安全措施
捕获数据集的元数据以支持安全性工作并促进最终用户数据的消耗 


Hadoop生态系统中的解决方案 

在Hadoop环境中实现大数据治理的一种方法是通过数据标记。在这种方法中,当数据通过各种企业系统时,将控制数据使用的元数据嵌入到该数据中。此外,此元数据被增强以包括超出常见属性的信息,如文件大小、权限、修改日期等。例如,它可能包括业务元数据,这些元数据将帮助数据科学家评估其在特定预测模型中的有用性。 
最后,与企业数据本身不同,元数据可以集中在单个平台上。 
标准的Hadoop分布式文件系统HDFS具有扩展的属性能力,允许丰富的元数据,但是对于大数据并不总是足够的。幸运的是,存在另一种解决方案。Apache Atlas元数据管理系统支持数据标记,还可以充当集中式元数据存储,可以为正在搜索相关数据集的数据分析师提供“一站式购物”。此外,流行的Hadoop友好的Hive和Spark SQL数据检索系统的用户可以自己进行标记。 
为了安全,Atlas可以与Apache Ranger集成,Apache Ranger是一个提供对Hadoop平台的基于角色的访问的系统。 


平台加载挑战 

将元数据初始加载到Atlas平台以及随后的增量加载都面临重大挑战。对于大型企业来说,在初始阶段,数据量的庞大将是主要问题,为了有效地执行这个阶段,可能需要优化一些代码。

增量加载是一个更复杂的问题,因为表、索引和授权用户一直在变化。如果这些变化没有快速反映在可用的元数据中,那么最终的结果就是最终用户可用的数据质量下降。为了避免这个问题,事件侦听器应该包括在系统的构建块中,以便可以近乎实时地捕获和处理更改。实时解决方案不仅意味着更好的数据质量。它还提高了开发人员的生产率,因为开发人员不必等待批处理过程。 


数字化改造的基础

随着企业追求数字转换并寻求更多的数据驱动,高级管理层需要意识到,没有高质量的数据就不可能实现这个方向的任何结果,这需要强有力的数据治理。当涉及大数据时,基于驻留在中央存储库中的增强元数据的治理是一种可行的解决方案。

(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 银行数据治理工作的落地面临着众多的困难与挑战

    银行数据治理工作的落地面临着众多的困难与挑战

    数据治理越来越受到银行、监管机构乃至国家层面的重视。银行已经意识到高效的管理体系、统一的数据标准、良好的数据质量才是数据价值实现的基础。……查看详情

    发布时间:2020.07.09来源:小亿浏览量:119次

  • 在数据智能时代企业面对庞大的数据量如何高效进行数据治理?

    在数据智能时代企业面对庞大的数据量如何高效进行数据治理?

    在数据智能时代,对企业而言,“数据驱动业务”或者“数据即是业务”的理念逐渐成为业界的一种共识。然而,数据孤岛、数据标准不统一等问题在一定……查看详情

    发布时间:2020.06.23来源:知乎浏览量:81次

  • 开创数据治理新局面

    开创数据治理新局面

    当前,大数据发展日新月异。深入推动实施国家大数据战略需要深入了解大数据发展现状和趋势及其对经济社会发展的影响,分析我国大数据发展取得的成……查看详情

    发布时间:2019.02.25来源:光明网浏览量:121次

  • 创新基础:智能数据治理是一项团队运动

    创新基础:智能数据治理是一项团队运动

    对于任何希望创新其战略以提高运营效率,提高质量,优化人口健康管理或推动精准医疗的卫生系统而言,数据治理是必不可少的必备措施之一。……查看详情

    发布时间:2018.11.26来源:数据治理浏览量:128次

  • 大数据资产管理总体框架概述

    大数据资产管理总体框架概述

    随着大数据时代的来临,对数据的重视提到了前所未有的高度,“数据即资产”已经被广泛认可。数据就像企业的根基,是各企业尚待发掘的财富,即将被……查看详情

    发布时间:2019.02.21来源:知乎浏览量:352次

  • 数据治理和安全

    数据治理和安全

    从组织的角度来看,通过人力资源技术传递的数据需要尽可能保持清洁,一致和可转移。问题?多个系统,手动流程和其他低效率需要清理脏数据,稍后从……查看详情

    发布时间:2018.12.04来源:数据治理浏览量:140次

  • 企业数字化转型的五化建设

    企业数字化转型的五化建设

    企业数字化转型的五化建设利用新一代信息技术,构建业务数据的采集、传输、存储、处理、分析、可视化结果和反馈的闭环,打不同系统、不同技术、不……查看详情

    发布时间:2020.04.03来源:知乎浏览量:137次

  • 数据治理治的是“数据”吗?

    数据治理治的是“数据”吗?

    数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。其实在我看来,……查看详情

    发布时间:2020.07.07来源:知乎浏览量:91次

  • 数据质量管理的方法论

    数据质量管理的方法论

    在数据治理方面,不论是国际的还是国内的,我们能找到很多数据治理成熟度评估模型这样的理论框架,作为企业实施的指引。而说到数据质量管理的方法……查看详情

    发布时间:2019.12.06来源:CSDN浏览量:165次

  • 释放数据民主:5种数据治理的误解

    释放数据民主:5种数据治理的误解

    释放数据民主:5种数据治理的误解……查看详情

    发布时间:2018.12.25来源:亿信华辰浏览量:141次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议