大数据治理——元数据是关键

发布时间:2018.12.03来源:数据管理浏览量:16次标签:数据治理

在大数据时代,当数据以多种格式分散在整个企业中并且来自许多来源时,需要一种新的数据治理方法。
随着可用数据的数量、种类和速度都在以惊人的速度持续增长,企业面临着两个紧迫的挑战:如何发现这些数据中的可操作的洞察力,以及如何保护它。这两个挑战直接取决于数据治理的高水平。 
Hadoop生态系统可以使用元数据方法提供这种级别的治理,理想情况下是在单个数据平台上。

需要一种新的治理方法有以下几个原因。在大数据时代,数据分散在整个企业中。它是结构化的、非结构化的、半结构化的和各种其他格式。此外,数据源不在需要管理的团队的控制之下。

在这种环境下,数据治理包括三个重要目标:
保持数据质量
实现访问控制和其他数据安全措施
捕获数据集的元数据以支持安全性工作并促进最终用户数据的消耗 


Hadoop生态系统中的解决方案 

在Hadoop环境中实现大数据治理的一种方法是通过数据标记。在这种方法中,当数据通过各种企业系统时,将控制数据使用的元数据嵌入到该数据中。此外,此元数据被增强以包括超出常见属性的信息,如文件大小、权限、修改日期等。例如,它可能包括业务元数据,这些元数据将帮助数据科学家评估其在特定预测模型中的有用性。 
最后,与企业数据本身不同,元数据可以集中在单个平台上。 
标准的Hadoop分布式文件系统HDFS具有扩展的属性能力,允许丰富的元数据,但是对于大数据并不总是足够的。幸运的是,存在另一种解决方案。Apache Atlas元数据管理系统支持数据标记,还可以充当集中式元数据存储,可以为正在搜索相关数据集的数据分析师提供“一站式购物”。此外,流行的Hadoop友好的Hive和Spark SQL数据检索系统的用户可以自己进行标记。 
为了安全,Atlas可以与Apache Ranger集成,Apache Ranger是一个提供对Hadoop平台的基于角色的访问的系统。 


平台加载挑战 

将元数据初始加载到Atlas平台以及随后的增量加载都面临重大挑战。对于大型企业来说,在初始阶段,数据量的庞大将是主要问题,为了有效地执行这个阶段,可能需要优化一些代码。

增量加载是一个更复杂的问题,因为表、索引和授权用户一直在变化。如果这些变化没有快速反映在可用的元数据中,那么最终的结果就是最终用户可用的数据质量下降。为了避免这个问题,事件侦听器应该包括在系统的构建块中,以便可以近乎实时地捕获和处理更改。实时解决方案不仅意味着更好的数据质量。它还提高了开发人员的生产率,因为开发人员不必等待批处理过程。 


数字化改造的基础

随着企业追求数字转换并寻求更多的数据驱动,高级管理层需要意识到,没有高质量的数据就不可能实现这个方向的任何结果,这需要强有力的数据治理。当涉及大数据时,基于驻留在中央存储库中的增强元数据的治理是一种可行的解决方案。

(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 在AHIMA的医疗保健信息治理框架内

    在AHIMA的医疗保健信息治理框架内

    医疗保健一直在与信息治理斗争。这并不奇怪,考虑到有多少数据以及它来自多少不同的源。美国健康信息管理协会希望改变这种状况。……查看详情

    发布时间:2019.01.15来源:亿信华辰浏览量:15次

  • 数据治理(DG)

    数据治理(DG)

    数据治理(DG)是对企业中使用的数据的可用性,可用性,完整性和安全性的整体管理。健全的数据治理计划包括理事机构或理事会,一套明确的程序和……查看详情

    发布时间:2018.11.12来源:techtarget浏览量:13次

  • 2019年的数据管理趋势:治理,DataOps,云

    2019年的数据管理趋势:治理,DataOps,云

    GDPR的数据治理要求,对AI驱动的分析的追求以及云计算的拉动为2018年数据管理和大数据团队的努力奠定了基调。这些和相关的数据管理趋势……查看详情

    发布时间:2019.01.02来源:亿信华辰浏览量:5次

  • 企业如何开展数据治理项目

    企业如何开展数据治理项目

    从大的阶段来看,数据治理主要分为存量数据“由乱到治”的阶段,以及增量数据严格按照规章制度实施确保“行不逾矩”的运营阶段。在“由乱到治”的……查看详情

    发布时间:2020.06.30来源:知乎浏览量:6次

  • 数据资产如何安全可追溯,你们应该这样做!

    数据资产如何安全可追溯,你们应该这样做!

    近年来,食品安全中提到产地的可追溯性,给许多生鲜打上了专属的身份证以便出现问题可以追根溯源。而这并不稀奇,在使用报表工具时处于数据安全考……查看详情

    发布时间:2021.03.12来源:知乎浏览量:15次

  • 基于大数据架构的医院数据中心管理

    基于大数据架构的医院数据中心管理

    医疗数据较为复杂,以医院来说建设的业务系统接近百来个,例如HIS系统、急诊系统、护理系统、电子病历系统、检验系统、检查系统、输血系统、生……查看详情

    发布时间:2019.02.14来源:亿信华辰浏览量:10次

  • 当前数据治理存在哪些问题和困难?

    当前数据治理存在哪些问题和困难?

    数据治理不只是技术问题,更是一个管理问题。例如大家常见的项目管理系统只是一个工具,如何让项目管理工具与项目管理思想相匹配才是项目管理系统……查看详情

    发布时间:2020.04.09来源:知乎浏览量:22次

  • 以数据中台为切入点,场景/应用驱动源头数据治理

    以数据中台为切入点,场景/应用驱动源头数据治理

    数据中台通常是应用驱动构建,所处理的数据是业务关心和使用的数据。在数据中台开发与运营服务的过程中,面临很多源头数据的问题,比如不同系统的……查看详情

    发布时间:2020.04.01来源:知乎浏览量:23次

  • “数据治理”:重构和愿景

    “数据治理”:重构和愿景

    对于数据业者而言,数据治理(datagovernance)并不陌生。根据国际标准化组织IT服务管理与IT治理分技术委员会、国际数据治理研……查看详情

    发布时间:2020.06.19来源:CSDN浏览量:15次

  • 数据治理思考:数据质量如何监控

    数据治理思考:数据质量如何监控

    近年来,数字经济成为我国国民经济高质量发展的新动能,而数字经济能否高质量发展还取决于数据治理水平是否够高。目前的数字经济面临数字鸿沟加大……查看详情

    发布时间:2022.01.21来源:小亿浏览量:29次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议