大数据治理——元数据是关键

发布时间:2018.12.03来源:数据管理浏览量:113次标签:数据治理

在大数据时代,当数据以多种格式分散在整个企业中并且来自许多来源时,需要一种新的数据治理方法。
随着可用数据的数量、种类和速度都在以惊人的速度持续增长,企业面临着两个紧迫的挑战:如何发现这些数据中的可操作的洞察力,以及如何保护它。这两个挑战直接取决于数据治理的高水平。 
Hadoop生态系统可以使用元数据方法提供这种级别的治理,理想情况下是在单个数据平台上。

需要一种新的治理方法有以下几个原因。在大数据时代,数据分散在整个企业中。它是结构化的、非结构化的、半结构化的和各种其他格式。此外,数据源不在需要管理的团队的控制之下。

在这种环境下,数据治理包括三个重要目标:
保持数据质量
实现访问控制和其他数据安全措施
捕获数据集的元数据以支持安全性工作并促进最终用户数据的消耗 


Hadoop生态系统中的解决方案 

在Hadoop环境中实现大数据治理的一种方法是通过数据标记。在这种方法中,当数据通过各种企业系统时,将控制数据使用的元数据嵌入到该数据中。此外,此元数据被增强以包括超出常见属性的信息,如文件大小、权限、修改日期等。例如,它可能包括业务元数据,这些元数据将帮助数据科学家评估其在特定预测模型中的有用性。 
最后,与企业数据本身不同,元数据可以集中在单个平台上。 
标准的Hadoop分布式文件系统HDFS具有扩展的属性能力,允许丰富的元数据,但是对于大数据并不总是足够的。幸运的是,存在另一种解决方案。Apache Atlas元数据管理系统支持数据标记,还可以充当集中式元数据存储,可以为正在搜索相关数据集的数据分析师提供“一站式购物”。此外,流行的Hadoop友好的Hive和Spark SQL数据检索系统的用户可以自己进行标记。 
为了安全,Atlas可以与Apache Ranger集成,Apache Ranger是一个提供对Hadoop平台的基于角色的访问的系统。 


平台加载挑战 

将元数据初始加载到Atlas平台以及随后的增量加载都面临重大挑战。对于大型企业来说,在初始阶段,数据量的庞大将是主要问题,为了有效地执行这个阶段,可能需要优化一些代码。

增量加载是一个更复杂的问题,因为表、索引和授权用户一直在变化。如果这些变化没有快速反映在可用的元数据中,那么最终的结果就是最终用户可用的数据质量下降。为了避免这个问题,事件侦听器应该包括在系统的构建块中,以便可以近乎实时地捕获和处理更改。实时解决方案不仅意味着更好的数据质量。它还提高了开发人员的生产率,因为开发人员不必等待批处理过程。 


数字化改造的基础

随着企业追求数字转换并寻求更多的数据驱动,高级管理层需要意识到,没有高质量的数据就不可能实现这个方向的任何结果,这需要强有力的数据治理。当涉及大数据时,基于驻留在中央存储库中的增强元数据的治理是一种可行的解决方案。

(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 数据治理——银行将被如何规范?

    数据治理——银行将被如何规范?

    我们认为,此番对数据治理的指引,未来可能会被其他金融监管机构作为范本,约束互联网金融或其他业态的数据治理行为,因此,具有学习和研究价值。……查看详情

    发布时间:2019.01.18来源:亿信华辰浏览量:143次

  • 走向人工智能治理的趋势

    走向人工智能治理的趋势

    这是人工智能(AI)驱动的自动化和自动机器的时代。自我改进,自我复制,自主智能机器日益普及和迅速扩大的潜力刺激了网络空间,地球空间和空间……查看详情

    发布时间:2019.03.06来源:亿信华辰浏览量:133次

  • 企业在什么情况下需要数据交换管理平台?

    企业在什么情况下需要数据交换管理平台?

    许多企业初期采用手工录入、脚本处理、传统工具做数据的交换,从目前的信息化现状来看存在着很大的弊端,首先是数据来源不一,库表、文件、接口无……查看详情

    发布时间:2020.04.22来源:知乎浏览量:155次

  • 数据生命周期管理工作包括哪些方面

    数据生命周期管理工作包括哪些方面

    睿治数据治理工具--数据生命周期管理平台支持数据资产全生命周期管理,根据存储周期自动计算每行数据的存储时限,并根据存储时限进行数据自动归……查看详情

    发布时间:2021.09.02来源:亿信华辰数据治理知识库浏览量:640次

  • 银行金融机构如何做好数据治理

    银行金融机构如何做好数据治理

    数据治理是用于描述给定组织中数据的所有过程和管理的术语,包括所述数据的质量,保护和使用。由于所持数据的性质,金融服务公司可能特别需要治理……查看详情

    发布时间:2019.08.16来源:知乎浏览量:171次

  • 数据治理唤醒“沉睡数据”

    数据治理唤醒“沉睡数据”

    十九届四中全会提出:“建立健全运用互联网、大数据、人工智能等技术手段进行行政管理的制度规则。推进数字政府建设,加强数据有序共享,依法保护……查看详情

    发布时间:2019.11.28来源:知乎浏览量:139次

  • 数据治理和成熟度评估模型

    数据治理和成熟度评估模型

    成熟度评估没有“ 一种模式适合所有人 ”。……查看详情

    发布时间:2019.02.14来源:亿信华辰浏览量:165次

  • 数据管理和物联网

    数据管理和物联网

    数十亿带传感器的东西环绕着人们和他们的生活。这些物联网(IoT)与人,家庭,工厂,工作场所,城市,农场和车辆互动。Gartner预测,到……查看详情

    发布时间:2019.02.20来源:亿信华辰浏览量:165次

  • 如今传统企业如何做数字化转型?

    如今传统企业如何做数字化转型?

    什么是数字化转型?“数字化转型”实际上就是对业务过程进行的重塑,通过重塑使其默认就更加适应更全面的在线环境,从最……查看详情

    发布时间:2020.07.31来源:知乎浏览量:125次

  • 数据科学趋势在2019年

    数据科学趋势在2019年

    在谈到2019年要关注的主要数据科学趋势时,Kaggle的联合创始人兼首席执行官Anthony Goldbloom 预测,很快数据中心将……查看详情

    发布时间:2019.01.04来源:数据治理浏览量:100次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议