数据治理的血缘分析

发布时间：2019.11.22来源：CSDN浏览量：287次标签：数据治理

数据治理里经常提到的一个词就是血缘分析，血缘分析是保证数据融合（聚合）的一个手段，通过血缘分析实现数据融合处理的可追溯。

有时被概念瞎蒙了，不知道到底如何追溯，落不了地。本人接触的数据治理项目还主要是将各个来源的数据进行整理融合，形成人地事物组织几个业务大类数据。至于详细的ODS、DWD、DWA等数据组织请阅读这篇文章：

数据治理概述
本文主要从数据追溯的业务需求来分析一下，一切还是要从需求出发，这里的数据处理都是Oracle关系数据库之间的融合，血缘分析就划分为表结构血缘分析和记录级的血缘分析；这两类业务场景：

表结构血缘分析

针对表结构的情况，最终用户和运维用户最需要关注，目标表的每个字段的数据来源有哪些？也就是建立一个源表、源字段和目标表、目标字段的映射关系，一个目标表可以对应多个来源表的字段，比如：姓名字段，可能来至于户籍人口表也可能来至于流动人口表或老年人表，也就是意味着这三张表合并起来的人口，才是这个区域的所有人口.
通过上图我们就可以清楚的看到从目标表的目标字段出发，知道数据库中数据处理的规则，清楚的了解每个字段数据的来源。
至于其中ODS、DWD、DWA的关系，参照上面所述先去了解。

记录级血缘分析

记录级的血缘分析，就是从当前记录出发可以按时间查看该记录所有的变更过程。一条记录的生成可能原始对应两个表的两条记录，这种是要追溯跟踪的。
如果再精细跟踪，就可以做到字段级的血缘分析，与表结构的血缘分析就可以完美呼应。
单击某一个字段，可查看该字段的血缘关系；一个是以此字段为目标的血缘追溯，一个是以此字段为源的血缘追溯
这里就要看具体应用需求来定，毕竟做的越精细实现方案会越复杂。
血缘分析毕竟解决的问题是数据出了错之后能明确知道是哪一步环节的哪个原始数据出问题了，所以一般到记录级就基本可以进行追溯跟踪了。

（部分内容来源网络，如有侵权请联系删除）

立即免费申请产品试用免费试用

睿治智能数据治理平台

数据采集

数据集成管理

数据交换管理

数据存储

实时计算存储

数据管理

元数据管理

数据标准管理

数据质量管理

主数据管理

数据服务

数据资产管理

大数据治理方案

大数据资产管理方案

主数据管理方案

数据标准化及质量管控方案

数据资产盘点方案

指标体系建设方案

数据仓库及商业智能方案

仓湖一体化数据中心建设方案