谈谈数据治理是什么?

发布时间:2021.03.06来源:人人都是产品经理浏览量:153次标签:数据治理

数据治理这项工作一直都是存在的,和数据库设计的三范式一样都是为了数据的管理。数据治理是一整套完整的组织、制度、技术管理行为。

我们可以将大数据治理定义:大数据治是广义信息化治理计划的一部分,即制定与大数据有关的管理优化、数据保护、数据变现的政策。

它的发起背景多数是由于公司战略政策和业务日益变大的数据需求和要求所产生的。我所在的公司,当业务经历粗放式增长后,原有的模式已不能带动业务的增长,需要通过数据手段赋能新的业务增长点。因此业务对数据提出了准确性、及时性等要求,原有业务采集一个需求需要4天时间已经不能满足业务,从而产生了数据治理项目的启动。

说了数据治理产生的背景,我再来谈下数据治理的对象。它包括数据、开发流程、管理流程、制度、组织。我认为只要和目标相关联的,都可以算作治理的对象,数据治理就是将关联方通过一套完整的管理行为,形成有序的工作以达成目标。

数据治理框架:


下面主要是介绍范围这块:

数据治理项目的范围

数据治理项目的范围通常都会包含:组织建设、数据安全、数据开发、数据质量、元数据管理、数据价值等几个模块。当然基于每家公司的数据治理的目标不一样,每家公司的数据治理实施关键路径也会不一样。我所在的公司数据治理的目标是为方便业务快速掌握了解数据、公开透明数据资产的动态,所以把数据价值、元数据管理、数据质量做为了实施关键路径。

元数据管理

元数据从数据的角度可以分为三类:业务元数据、技术元数据和管理元数据。
业务元数据是从业务的视角去描述数据,让不懂数据的人可以快速读懂数据,例如:表名称、表的血缘关系、表的字段说明、指标的统计口径等多种业务描述;
技术元数据自然就是从技术的角度去描述数据,例如:表的sql、字段长度、字段类型等多种技术描述;
管理元数据是包含数据管理的信息在里面,例如:表的业务属主、表的技术负责人。
元数据的管理通常包含:血缘分析、数据生命周期。
血缘分析:对元数据的上下游进行分析,我的公司按照数据存储的数据库将血缘分析分为了两类:
存在Hadoop平台的血缘分析,可用通过脚本解析出到字段级的上下游关系;
建表有主外键的,可通过主外键建立血缘关系。
数据生命周期:数据都存在生命周期,当元数据访问量变低,数据价值不存在的时候,可将它下线清除,释放存储空间。

数据安全
数据安全主要是对数据的安全脱敏管控和安全检查,脱敏机制有两种方案:

1)在数据仓库的接入和输出进行脱敏管控:数据接入识别敏感信息,通过脱敏工具进行脱敏处理,产生脱敏表和敏感表两张表(脱敏表与敏感表之间要有映射关系),敏感数据不对中间层开放,对于数仓中间层则只有脱敏表,开发和测试的时候也只能使用脱敏表,在数据输出层,首先应用层的开发先对敏感数据进行申请,申请通过后得到敏感表的使用权,开发通过映射关系将敏感表的脱敏数据进行关联处理。

这种方案的好处:安全易管控,脱敏过程少,但会增加开发的工作量。

2)针对用户进行脱敏管理,数据仓库的每一层都需要对敏感数据进行脱敏处理,对于敏感数据申请权限的用户可以查看敏感信息,没有权限的用户只能查看脱敏表。这种脱敏机制好处在于对开发没什么影响,但加大安全管理的复杂度,需要全域扫描敏感信息,脱敏工作大。

数据质量

数据质量的提升通常包含以下几个方面:
1)数据质量评估,提供数据质量评估能力,如数据一致性、完整性、正确性、合规性、及时性等,对数据进行全面检查;
2)数据质量检查,提供可配置化的检查规则,通过脚本定时调度执行;
3)数据质量监控,提供报警规则,根据配置检查规则的阀值,对超出阀值的进行不同程级的告警和通知;
4)问题处理机制,对数据问题按照流程进行处理,规范问题处理机制和步骤,强化问题认证,提高数据质量;
5)根据血缘关系和业务场景锁定高价值数据,进行高安全级别管控,避免数据出错。

数据价值
数据治理最重要的产出物,通过数据治理能为业务带来的业务价值。如我所在的公司,数据价值体现在数据资产可视化。对于不同看数据角色定义不同的价值,对于数据业务分析人员,通过数据标准化管理和平台搭建,让不懂数据的业务能够快速掌握数据,并可以自己进行数据挖掘、数据分析等工作。

对于高层领导,将公司的业务数据以报告的形式,让领导快速了解数据的成本及分布情况。当然不同的公司侧重的价值会不一样,数据治理同时也能有效的控制数据成本,减少因为数据带来的摩擦,提升数据质量和安全。

数据开发
对数据开发进行标准的流程管理是数据治理核心的一部分,首先根据公司实际情况分析、制定可落地的数据开发管理规范。过于复杂的数据开发规范维护成本高,同时也加重开发工作量,导致难以执行。过于简单的规范又无法很好的管理开发流程。最主要的还是定制完规范后拉各关联方进行评审,大家对可落地,可管理的角度是评估规范。

当规范制定好后,就是按照规范进行落地执行。通常数据开发规范包含:数据建模、数据设计、数据项目部署和实施。

数据建模是一种分析和设计方法,用于:
定义和分析数据需求;
设计满足需求的数据结构。
数据设计是做表的关联影响分析,数据上游于哪些表, 根据数据开发规范对表的命名和结构进行设计。数据项目部署和实施主要是发布管理,就不做解释了。

组织建设
数据组织是保障数据治理能够长期有效的重要手段之一,通常数据组织都是可以跨职责的,组织的职能和分类如下:
1)数据治理委员会,在公司内部拥有数据的最高决策权,代表了企业的高层视角
2)数据管理指导委员会,为数据委员会提供支持,针对一些具体数据管理措施起草相关政策和标准,提供委员会评审和批准
3)数据管理制度团队,在某个业务领域内,协助完成数据制度管理的数据管理专员小组,数据管理制度团队来着不同的部门和跨业务领域的数据专家


了解更多关于数据治理解读,可以查看下面的文章:

1.2句话告诉你什么是数据治理

2.什么是数据治理?政务数据治理与数据治理有什么不同?

3.什么是数据治理?为何数据治理如此重要?

4.数据治理的定义:什么是数据治理?

5.什么是数据治理以及数据治理架构


(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 数据滥采滥用已到非治理不可的地步

    数据滥采滥用已到非治理不可的地步

    目前个人数据滥采、滥用、非法采集和使用现象十分严重,严重侵害了个人权益,个人信息保护制度亟待建立!……查看详情

    发布时间:2019.10.17来源:知乎浏览量:259次

  • 4+7集采进入大数据时代,科技巨头驱动医药行业大变局

    4+7集采进入大数据时代,科技巨头驱动医药行业大变局

    未来的医疗大数据将影响整个医药产业格局。 根据国家医保局及“4+7”带量采购发布的文件,包括天津、大连、沈阳等城市药品带量采购细则……查看详情

    发布时间:2019.03.28来源:亿信华辰浏览量:105次

  • 敏捷方法如何帮助解决您的数据问题

    敏捷方法如何帮助解决您的数据问题

    无论哪种方式,您都必须像软件开发人员一样思考,并确保您拥有正确的思维方式,技能组合和工具集,以保持数据掌握的灵活性。……查看详情

    发布时间:2019.02.27来源:亿信华辰浏览量:123次

  • 了解当今数据驱动型企业的治理核心

    了解当今数据驱动型企业的治理核心

    数据治理不仅涉及风险管理。它是关于深入了解数据的核心,使组织中的每个人都能更轻松地使用和信任数据,从而获得业务优势。良好的数据治理系统不……查看详情

    发布时间:2019.02.28来源:亿信华辰浏览量:136次

  • 走向人工智能治理的趋势

    走向人工智能治理的趋势

    这是人工智能(AI)驱动的自动化和自动机器的时代。自我改进,自我复制,自主智能机器日益普及和迅速扩大的潜力刺激了网络空间,地球空间和空间……查看详情

    发布时间:2019.03.06来源:亿信华辰浏览量:133次

  • 创新者的破局之路:煤炭行业首个集团级数据治理项目落地

    创新者的破局之路:煤炭行业首个集团级数据治理项目落地

    工业互联网激起能源领域一池春水,新一代信息技术则是其不断发展的加速器。山东能源集团下属临沂矿业集团有限责任公司(以下简称临矿集团)率先在……查看详情

    发布时间:2021.02.04来源:亿信华辰浏览量:371次

  • 3点告诉你如何正确实现数据治理

    3点告诉你如何正确实现数据治理

    数据驱动需要的不只是的新工具的出现。它需要对数据质量进行投资,以改变有关数据捕获系统的设计和使用方式的行为。……查看详情

    发布时间:2021.05.20来源:亿信数据治理知识库浏览量:154次

  • 数据治理引领企业数字化转型

    数据治理引领企业数字化转型

    随着数字化时代的到来,数据已经成为了企业的重要资产之一。然而,如何确保数据的质量、安全性和合规性,成为了企业面临的难题。作为国内知名的数……查看详情

    发布时间:2023.09.26来源:互联网浏览量:124次

  • 数据集成的原理

    数据集成的原理

    在Experian Data Quality上多次使用这个类比,但这仅仅是因为它在引用数据标准化时非常有意义。 数据标准化只是构建……查看详情

    发布时间:2018.12.29来源:数据治理浏览量:168次

  • 数据质量稳定提升方法:使用反馈循环

    数据质量稳定提升方法:使用反馈循环

    每个额外的数据源都给流程增加了更多的复杂性,并且至少在短期内,在流程自动化之前消耗了额外的时间。现在是时候这些数据专业人员可以专门回答业……查看详情

    发布时间:2021.04.23来源:亿信数据治理知识库浏览量:200次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议