大数据治理——元数据是关键

发布时间:2018.12.03来源:数据管理浏览量:154次标签:数据治理

在大数据时代,当数据以多种格式分散在整个企业中并且来自许多来源时,需要一种新的数据治理方法。
随着可用数据的数量、种类和速度都在以惊人的速度持续增长,企业面临着两个紧迫的挑战:如何发现这些数据中的可操作的洞察力,以及如何保护它。这两个挑战直接取决于数据治理的高水平。 
Hadoop生态系统可以使用元数据方法提供这种级别的治理,理想情况下是在单个数据平台上。

需要一种新的治理方法有以下几个原因。在大数据时代,数据分散在整个企业中。它是结构化的、非结构化的、半结构化的和各种其他格式。此外,数据源不在需要管理的团队的控制之下。

在这种环境下,数据治理包括三个重要目标:
保持数据质量
实现访问控制和其他数据安全措施
捕获数据集的元数据以支持安全性工作并促进最终用户数据的消耗 


Hadoop生态系统中的解决方案 

在Hadoop环境中实现大数据治理的一种方法是通过数据标记。在这种方法中,当数据通过各种企业系统时,将控制数据使用的元数据嵌入到该数据中。此外,此元数据被增强以包括超出常见属性的信息,如文件大小、权限、修改日期等。例如,它可能包括业务元数据,这些元数据将帮助数据科学家评估其在特定预测模型中的有用性。 
最后,与企业数据本身不同,元数据可以集中在单个平台上。 
标准的Hadoop分布式文件系统HDFS具有扩展的属性能力,允许丰富的元数据,但是对于大数据并不总是足够的。幸运的是,存在另一种解决方案。Apache Atlas元数据管理系统支持数据标记,还可以充当集中式元数据存储,可以为正在搜索相关数据集的数据分析师提供“一站式购物”。此外,流行的Hadoop友好的Hive和Spark SQL数据检索系统的用户可以自己进行标记。 
为了安全,Atlas可以与Apache Ranger集成,Apache Ranger是一个提供对Hadoop平台的基于角色的访问的系统。 


平台加载挑战 

将元数据初始加载到Atlas平台以及随后的增量加载都面临重大挑战。对于大型企业来说,在初始阶段,数据量的庞大将是主要问题,为了有效地执行这个阶段,可能需要优化一些代码。

增量加载是一个更复杂的问题,因为表、索引和授权用户一直在变化。如果这些变化没有快速反映在可用的元数据中,那么最终的结果就是最终用户可用的数据质量下降。为了避免这个问题,事件侦听器应该包括在系统的构建块中,以便可以近乎实时地捕获和处理更改。实时解决方案不仅意味着更好的数据质量。它还提高了开发人员的生产率,因为开发人员不必等待批处理过程。 


数字化改造的基础

随着企业追求数字转换并寻求更多的数据驱动,高级管理层需要意识到,没有高质量的数据就不可能实现这个方向的任何结果,这需要强有力的数据治理。当涉及大数据时,基于驻留在中央存储库中的增强元数据的治理是一种可行的解决方案。

(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 亿信华辰&东芝|拥抱智能制造,实现生产数据实时采集

    亿信华辰&东芝|拥抱智能制造,实现生产数据实时采集

    在《中国制造2025》战略实施后,“制造业数字化、网络化、智能化”被定义为新工业革命的核心技术。离开生产数据采集,生产管理部门不能及时、……查看详情

    发布时间:2019.05.10来源:亿信华辰浏览量:193次

  • 数据治理:您需要了解的内容

    数据治理:您需要了解的内容

    数据治理:您需要了解的内容,持续的数据治理计划为遵守公司的战略计划提供了知识和制度基础。……查看详情

    发布时间:2018.11.23来源:数据治理浏览量:157次

  • 数据治理流程

    数据治理流程

    数据治理流程必须通过TSDS数据治理流程审查TEA收集的所有数据。此过程允许用户监督 TEA如何从LEA收集立法规定的数据以及为stud……查看详情

    发布时间:2018.11.27来源:数据治理浏览量:241次

  • 企业数据治理的坑你遇到过哪些?

    企业数据治理的坑你遇到过哪些?

    在这些年的数据治理实践当中有成功的经验,当然也经历过很多失败的教训,有些教训反反复复的出现…笔者一直在思考怎么避免这些问题,所以今天就跟……查看详情

    发布时间:2019.09.12来源:知乎浏览量:169次

  • 医疗保健委员会治理的最佳实践是什么?

    医疗保健委员会治理的最佳实践是什么?

    治理这个词源于拉丁语gubernare,意思是指导或统治。医疗保健委员会的治理正在发展,因为技术使医院和其他医疗机构能够访问越来越多的数……查看详情

    发布时间:2019.03.14来源:亿信华辰浏览量:216次

  • 金融服务数据治理:帮助价值'新货币'

    金融服务数据治理:帮助价值'新货币'

    对于在金融服务领域运营的组织,数据治理变得越来越重要。当金融服务行业董事会成员和高管在2018年初聚集在安永的金融服务领导峰会时,数据是……查看详情

    发布时间:2018.12.03来源:Michael Pastore浏览量:163次

  • 新形式的治理需要安全和道德地解锁数据价值

    新形式的治理需要安全和道德地解锁数据价值

    尽管今天的数据非常丰富,但其中大部分仍处于孤岛状态,这意味着需要新的治理结构来打开它并释放其对社会的潜在价值。……查看详情

    发布时间:2019.03.21来源:亿信华辰浏览量:150次

  • 最全数据治理工具解析:数据治理工具的关键必备功能

    最全数据治理工具解析:数据治理工具的关键必备功能

    ​数据治理工具被定义为帮助创建和维护一组结构化策略、程序和协议的过程的工具,这些策略、程序和协议控制企业数据的存储、使用和管理方式。本文……查看详情

    发布时间:2021.07.22来源:亿信华辰数据治理浏览量:409次

  • 政府数据治理的国际经验与启示

    政府数据治理的国际经验与启示

    政府数据治理是当前政府信息管理研究的热点问题,对发达国家政府数据治理经验的总结有助于把握政府数据治理的普遍规律,推动我国政府数据的开发利……查看详情

    发布时间:2018.10.23来源:信息资源管理学报浏览量:220次

  • 什么是数据治理,为什么重要?

    什么是数据治理,为什么重要?

    没有有效的数据治理,组织中不同系统中的数据不一致可能无法解决。例如,在销售,物流和客户服务系统中,客户名称可能会以不同的方式列出。……查看详情

    发布时间:2021.04.01来源:浏览量:170次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议