大数据治理——元数据是关键

发布时间:2018.12.03来源:数据管理浏览量:1次标签:数据治理

在大数据时代,当数据以多种格式分散在整个企业中并且来自许多来源时,需要一种新的数据治理方法。
随着可用数据的数量、种类和速度都在以惊人的速度持续增长,企业面临着两个紧迫的挑战:如何发现这些数据中的可操作的洞察力,以及如何保护它。这两个挑战直接取决于数据治理的高水平。 
Hadoop生态系统可以使用元数据方法提供这种级别的治理,理想情况下是在单个数据平台上。

需要一种新的治理方法有以下几个原因。在大数据时代,数据分散在整个企业中。它是结构化的、非结构化的、半结构化的和各种其他格式。此外,数据源不在需要管理的团队的控制之下。

在这种环境下,数据治理包括三个重要目标:
保持数据质量
实现访问控制和其他数据安全措施
捕获数据集的元数据以支持安全性工作并促进最终用户数据的消耗 


Hadoop生态系统中的解决方案 

在Hadoop环境中实现大数据治理的一种方法是通过数据标记。在这种方法中,当数据通过各种企业系统时,将控制数据使用的元数据嵌入到该数据中。此外,此元数据被增强以包括超出常见属性的信息,如文件大小、权限、修改日期等。例如,它可能包括业务元数据,这些元数据将帮助数据科学家评估其在特定预测模型中的有用性。 
最后,与企业数据本身不同,元数据可以集中在单个平台上。 
标准的Hadoop分布式文件系统HDFS具有扩展的属性能力,允许丰富的元数据,但是对于大数据并不总是足够的。幸运的是,存在另一种解决方案。Apache Atlas元数据管理系统支持数据标记,还可以充当集中式元数据存储,可以为正在搜索相关数据集的数据分析师提供“一站式购物”。此外,流行的Hadoop友好的Hive和Spark SQL数据检索系统的用户可以自己进行标记。 
为了安全,Atlas可以与Apache Ranger集成,Apache Ranger是一个提供对Hadoop平台的基于角色的访问的系统。 


平台加载挑战 

将元数据初始加载到Atlas平台以及随后的增量加载都面临重大挑战。对于大型企业来说,在初始阶段,数据量的庞大将是主要问题,为了有效地执行这个阶段,可能需要优化一些代码。

增量加载是一个更复杂的问题,因为表、索引和授权用户一直在变化。如果这些变化没有快速反映在可用的元数据中,那么最终的结果就是最终用户可用的数据质量下降。为了避免这个问题,事件侦听器应该包括在系统的构建块中,以便可以近乎实时地捕获和处理更改。实时解决方案不仅意味着更好的数据质量。它还提高了开发人员的生产率,因为开发人员不必等待批处理过程。 


数字化改造的基础

随着企业追求数字转换并寻求更多的数据驱动,高级管理层需要意识到,没有高质量的数据就不可能实现这个方向的任何结果,这需要强有力的数据治理。当涉及大数据时,基于驻留在中央存储库中的增强元数据的治理是一种可行的解决方案。

(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 数据太多、太乱、太杂?你需要这样一套数据治理平台

    数据太多、太乱、太杂?你需要这样一套数据治理平台

    当前,企业变革已经成为企业适应剧烈变化的市场环境、实现长期发展的必经之路。然而,过去为组织带来工作效率提升的烟囱式的孤岛式的业务系统……查看详情

    发布时间:2019.11.20来源:知乎浏览量:2次

  • 2019年三种降低公司数据风险的方法

    2019年三种降低公司数据风险的方法

    企业家是自然风险承担者,风险是发展业务的必要条件。但是,一些风险不在商业领袖的控制范围之内,因此必须考虑这些外部因素,以确保企业的整体寿……查看详情

    发布时间:2019.01.03来源:数据治理浏览量:2次

  • 全栈式数据标准管理平台方案来了!

    全栈式数据标准管理平台方案来了!

    数据标准百度给的解释就是数据标准化是企业或组织对数据的定义、组织、监督和保护进行标准化的过程。数据标准化分为开发(D)、候选(C)、批准……查看详情

    发布时间:2020.08.28来源:知乎浏览量:2次

  • 数据治理的战略转变

    数据治理的战略转变

    正在进行的思维方式和工具集战略转变正在改变主要思想家如何重新考虑他们的数据治理方法。治理的核心是变革管理。……查看详情

    发布时间:2019.03.27来源:亿信华辰浏览量:1次

  • 什么是数据标准?如何制定数据标准?这份指南送上

    什么是数据标准?如何制定数据标准?这份指南送上

    随着大数据行业的兴起,数据的重要性不言而喻,对数据进行应用的工具层出不穷,带来了巨大的经济效益。可很快就发现了诸多数据问题,制约了数据应……查看详情

    发布时间:2020.09.29来源:头条浏览量:1次

  • 从信息安全角度看大数据管理风险

    从信息安全角度看大数据管理风险

    无论是从企业存储策略与环境来看,还是从数据与存储操作的角度来看,大数据带来的“管理风险”不仅日益突出,而且如果不能妥善解决,将肯定会造成……查看详情

    发布时间:2019.03.05来源:亿信华辰浏览量:1次

  • 全球数据治理体系建设

    全球数据治理体系建设

    数据治理体系建设是推动数字经济高质量发展的关键。美国和欧盟正在加紧构建符合自身利益诉求的数据治理体系,并力图引领全球数据治理,提升数字经……查看详情

    发布时间:2020.01.03来源:知乎浏览量:1次

  • 数据仓库的定义,它有什么作用?

    数据仓库的定义,它有什么作用?

    最简单的数据仓库是用于存储和报告数据的系统。数据通常源自多个系统,然后将其移入数据仓库以进行长期存储和分析。该存储的结构使得组织内的许多……查看详情

    发布时间:2018.12.20来源:数据治理浏览量:2次

  • 企业数据治理的九大要素

    企业数据治理的九大要素

    元数据管理致力于处理技术元数据、业务元数据、管理元数据,通过丰富的元数据分析和检核,帮助各行各业用户获得更多的数据洞察力,进而挖掘出隐藏……查看详情

    发布时间:2020.07.10来源:知乎浏览量:5次

  • 企业架构组织的创新能力如何?

    企业架构组织的创新能力如何?

    回想一下最新的企业架构文章,博客文章,甚至是你读过的职位描述,并算一下至少一次没有提到“创新”的内容?我猜测,“创新”往往被作为有效企业……查看详情

    发布时间:2019.02.26来源:亿信华辰浏览量:2次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议