不治理就破产—谈大数据时代的数据治理

发布时间:2019.02.21来源:知乎浏览量:139次标签:数据治理

2013年被众多的IT人定义为中国的大数据元年,这一年国内的大数据项目开始在交通、电信、金融部门被广泛推动。各大银行对Hadoop的规划、POC尤其风生水起,带动了一波大数据应用的热潮,这个热潮和当初数据仓库进入中国时的2000年左右很相似:应用还没有想好,先归集一下数据,提供一些查询和报表,以技术建设为主,业务推动为辅。这就导致了这股Hadoop热潮起来的时候,传统企业都是以数据归集为主的,而BAT这样的企业则天生以数据为生,早早进入了数据驱动技术和业务创新的阶段。


随着Hadoop技术的提升,数据如何进来,如何整合,开展什么样的应用都已经有了成熟的案例,可是,同传统数仓时代一样,垃圾进垃圾出,如何破?相比传统数仓时代,进入Hadoop集群的数据更加的多样、更加的复杂、量更足,这个数仓时代都没有处理好的事情,如何能够在大数据时代处理好,这是所有大数据应用者最最期盼的改变,也是大数据平台建设者最有挑战的难题:数据治理难的不是技术,而是流程,是协同,是管理。


数据治理并不等同于数据管理,而只是数据管理的顶层执行层面。数据管理指规划、控制和提供数据及信息资产,发挥数据和信息资产的价值,强调在企业间或企业内部进行。数据治理是对数据资产管理活动行使权力和控制的活动集合(规划、监控和执行)。数据治理制定正确的原则、政策、流程、操作规程,确保以正确的方式对数据和信息进行管理。


数据资产管理是业务部门和IT部门的共同职责,需要由业务部门和IT部门分别或共同制定相关决策,如业务运营模型、数据治理模型、企业信息模型、业务规范、信息规范、数据库架构、数据仓库/商务智能架构、元数据架构、技术元数据、数据安全管理等。


数据资产管理方法主要是面向数据的整个生命周期,从空间视角和时间视角实现治理和管控。从空间视角上看,因为数据在不同业务、不同系统中流动,因此数据治理必须实现跨系统、跨业务的端到端治理,需要有机构统筹规划与决策、协调与推进。从时间视角上看,企业管理数据资产,就是管理数据的生命周期。数据首先被创建或获得,然后存储、维护和使用,最终被销毁。因而有效的数据管理,开始于数据获取之前,企业先期制定数据规划、定义数据规范,以期获得实现数据采集、交付、存储和控制所需的技术能力。


数据资产管理主要工作包括数据治理政策制定、数据标准管理、数据结构管理、数据流管理、数据库管理、数据运用管理、数据治理质量改善等方面。


数据管理是系统化的工程,不仅仅是单纯的技术问题、管理问题或者实施问题,而是三者紧密联系,共同发挥作用,共同促进数据管理机制完善并发挥作用的过程。相应的,大数据平台数据治理也应采取分步骤实施,有序推进的策略。


建立完整的、科学的、安全的、高质量的数据管控技术体系,是首要的任务。作为数据管控的基石,为了更好支撑后续工作的开展,技术体系必须一步到位,是功能完备、高质量、高扩展性的,而不是仅实现部分功能,或者功能不完善的“半成品”。


叠加更多业务数据、细化数据业务属性与管理属性、优化与调整数据管控流程,尤其是适应未来的现代企业数据管控制度的建立完善,是逐步积累推广、不断磨合改进的长期过程。这些工作应及早启动,并成为后续大数据平台建设工作的重点。


演进目标一般分为两步走,当前和远期:

当前要做的是功能框架的完善,而完善的着力点则是“数据资产目录”:用资产化的视角来管理一个企业的数据,只有把数据作为资产来认识和管理,大数据项目才能达成预期,也能够治理好。大数据时代带来的价值,个人认为主要有两个,一个是技术架构,主要是架构理念的进步,另外一个更重要的则是对数据的重视。大数据时代是数据的时代,IT向DT转型,不单单是BAT,所有的IT公司,未来都在数据这两个字上。


对于一个企业来说,把数据作为资产,才是建设大数据的最终目的,而不是仅仅是因为Hadoop架构带来性价比和未来的扩展性。当一个企业把数据作为资产,他就像管理自己名下存折、信用卡一样,定期梳理,无时无刻不关心资产的变化情况,关注资产的质量。

而资产目录就是管理资产的形式和手段,他像菜单一样对企业的资产进行梳理、分门别类,提供给使用者;使用者通过菜单,点选自己需要的数据,认可菜单对应的后端处理价值,后厨通过适当的加工,推出相应的数据服务;这是一个标准的流程,而这些流程之上,附着一整套数据管理目标和流程。


大数据平台以数据资产目录为核心,将元数据、数据标准、主数据、数据质量、数据生命周期、数据轮廓等信息在逻辑层面关联起来,在管理层面上整合成统一的整体,构建起数据管理体系,全面的支持数据服务等具体应用。


大数据平台实现了数据存储、清洗和应用。在数据汇入和汇出的过程中,需要对数据的元数据进行统一记录和管理,以利于后续的数据应用和数据血缘分析。数据质量一直是数据集成系统的基础工作,对数据的各个环节设置数据质量检查点,对数据质量进行剖析、评估,以保证后续应用的可信度。


在数据收集的过程中,随着数据维度、指标的聚集,如何找到所需的业务指标及属性,并且评估相关属性的业务及技术细节,需要对收集的所有数据进行业务属性,并进行分类,建立完善的数据资产目录。


数据资产目录是整个大数据平台的数据管理基础,而数据资产目录由于数据的多样性,在使用的过程中,必然涉及数据权限的申请、审批管控流程,而管控流程的建立依赖于相应岗位的设立和对应职责的建立。


大数据平台的数据管理架构规划,通过数据物理集中和数据逻辑整合,彻底摆脱企业“数据竖井”的困境。大数据平台数据管理架构分为功能架构、流向规划和数据架构三个层面。


数据管理功能架构:借鉴DAMA数据管理和DMM数据成熟度理论,着眼于数据管理技术和数据管理流程融合,组织数据管理功能。

数据流向规划架构:规划整个大数据平台的数据流向,并在数据流入、数据整合、数据服务的具体环节实现精细化管理。


数据管理的数据架构:以数据资产目录为核心,数据项为最小管理单元,将技术元数据(实体、属性和关系)、业务元数据和管理元数据(数据标准、主数据、数据质量、数据安全)融合为彼此紧密联系、密不可分的整体,共同构成精细化管理的数据基础。


数据管理在整个大数据平台不仅仅是一个主要功能模块,它还是整个企业层面数据治理的重要组成部分,它是技术和管理流程的融合,也需要合理管控流程框架下组织机构之前的协调合作。如何利用统一的数据管理模块对企业所有进入到数据湖的数据进行有效管控,不单单取决于数据管理模块本身,也取决于元数据的合理采集、维护,组织结构及制度的强力支持保证。

大数据平台数据管理参照了DAMA对于数据管理的九个管理目标,并进行裁剪,并对部分管理目标进行了合并,并参照了CMMI制定DMM数据成熟度目标,采用循序渐进,逐步完善的策略对管理目标进行分阶段完成,制定完整的管控流程和数据治理规范,以便持续的对数据进行管理,递进实现DMM定义的成熟度目标。


大数据管理目标和DAMA的对应关系如下:

大数据平台数据管理的核心内容是数据资产目录,围绕数据资产目录的数据流入、数据整合、数据服务都是数据管理的核心。数据管理主要管理数据的流动,以及管理流动带来的数据变化,并对数据底层的数据结构、数据定义、业务逻辑进行采集和管理,以利于当前和未来的数据使用。为了更好的对数据进行管理和使用,制度层面的建设、流程的设立必不可少,同时也兼顾到数据在流动过程中产生的安全风险和数据隐私风险。


因此数据管理介入到完整的数据流转,并在每个节点都有相应的管理目标对应,整个数据流框架如下图所示:

企业在建制大数据平台的同时,对进入数据湖的数据进行梳理,并按照数据资产目录的形式对外发布。在发布数据资产之后,则对进出数据湖的数据进行严格的出入库管理,保证数据可信度,并定期进行数据质量剖析检查,确保数据资产完善、安全、可信,避免“不治理便破产”的谶言。

(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 专用企业架构工具如何解决常见的CIO问题

    专用企业架构工具如何解决常见的CIO问题

    由于技术在商业中的重要性,CIO们发现他们的工作变得越来越困难。随着技术创新本身 - 以及物联网设备数量预计到2020年将增加285%(……查看详情

    发布时间:2019.02.26来源:亿信华辰浏览量:128次

  • 企业数据质量是数字化时代企业的重要资产

    企业数据质量是数字化时代企业的重要资产

    大数据的概念正在进一步渗透到各个行业与领域当中,随着企业业务增长和规模扩大,以及伴随着信息技术和相关基础设施的不断完善,在短短的几年内,……查看详情

    发布时间:2020.01.10来源:知乎浏览量:174次

  • 什么是敏捷数据管理?敏捷数据管理的技术原则

    什么是敏捷数据管理?敏捷数据管理的技术原则

    在大数据的时代,大家都在重视数据存储和大数据相关技术的同时,都开始注重建设数据管理能力。在海量复杂数据的场景下,如果没有有效的管理,那么……查看详情

    发布时间:2022.03.03来源:小亿浏览量:276次

  • 数据治理术语表

    数据治理术语表

    DGI提供了使用非技术语言解释的网络最佳数据相关术语集。在这里,您将找到不仅需要了解数据治理,还需要了解其他类型的程序和项目所需的信息,……查看详情

    发布时间:2019.03.18来源:亿信华辰浏览量:445次

  • 当今困扰企业的三个最常见的数据问题

    当今困扰企业的三个最常见的数据问题

    各组织都在发生数据危机。虽然存在缺陷,但传统的数据管理方法(ETL和MDM)运行良好,因此可以产生一些数据感。但是数据收集的增长速度远远……查看详情

    发布时间:2019.02.13来源:企业浏览量:144次

  • 浅谈数据质量管理

    浅谈数据质量管理

    随着互联网及数字化技术的飞速发展,我们生活在一个数字化转型的时代,各种数字化正在实实在在的改变着企业的日常运营,以及我们每个人的衣食住行……查看详情

    发布时间:2019.07.26来源:知乎浏览量:198次

  • 企业数据质量管理的水平、直接影响数字化转型的进程!

    企业数据质量管理的水平、直接影响数字化转型的进程!

    企业在数字化转型的过程中,需利用云计算、大数据、移动互联和物联网技术,通过新的产品和服务、新的业务模式和新的关系创造价值和竞争优势。数字……查看详情

    发布时间:2019.08.01来源:知乎浏览量:180次

  • 企业必须使其数据治理程序适应数据爆炸和颠覆性技术的现实

    企业必须使其数据治理程序适应数据爆炸和颠覆性技术的现实

    公司必须使其数据治理计划适应数据爆炸和颠覆性技术的现实 今天的数据爆炸 - 以及所揭示的见解 - 不仅从战略角度对组织非常有价值,而且……查看详情

    发布时间:2018.11.26来源:数据治理浏览量:131次

  • 为什么你应该有一个数据治理策略

    为什么你应该有一个数据治理策略

    有效的数据治理也是一个持续的过程。政策定义,审查,调整和审计以及合规审查和质量控制都会作为数据治理生命周期经常受到影响或重复。因此,数据……查看详情

    发布时间:2019.03.08来源:亿信华辰浏览量:166次

  • 数据资产管理直面企业痛点

    数据资产管理直面企业痛点

    企业日常经营活动中积累的大量数据,除了支持业务流程运转之外,越来越多地被用于帮助企业提升管理决策效率、实现价值挖掘和业务创新。企业日常经……查看详情

    发布时间:2020.09.11来源:知乎浏览量:173次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议