元数据:数据治理的燃料

发布时间:2019.08.02来源:知乎浏览量:225次标签:数据治理

实现数据质量的最佳方法是组合或混合这三种技术:解码后的谱系,数据相似性谱系和手动谱系映射。
企业渴望从可提供竞争优势的数据中获取洞察力。实现这一目标的最常见障碍是数据质量差。如果输入到预测算法的数据是“脏的”(具有丢失或无效的值),则该算法产生的任何见解都不可信。


要实现数据质量,仅清理现有的历史数据是不够的。您还需要通过建立一组称为数据治理的功能和流程来确保所有新生成的数据都是干净的。在受管数据环境中,每种类型的数据都有一名数据管理员,负责定义和实施数据清洁标准。并且,每个数据值都有一个明确定义的谱系:我们知道它来自何处,它在此过程中经历了哪些转换,以及从该数据值派生的其他数据项。

数据沿袭为企业提供了许多好处:


通过向后追踪谱系(以查找影响当前数据的所有数据)或转发(以识别受当前数据影响的所有其他数据)从给定数据项执行影响分析和根本原因分析的能力;
业务词汇和术语的标准化,有助于跨业务部门的清晰通信;
归功于对数据所做的任何更改的所有权,责任和可追溯性,这归功于谱系全面记录了谁做出了哪些更改以及何时更改。
听起来不错,但数据沿袭信息来自哪里?查看数据库中的特定数据值会告诉我们其当前值,但它不会提供有关数据如何演变为其当前值的信息。缺少的是有关数据的数据(沿袭元数据),它自动记住每个数据项所做的每次更改的时间和来源,无论是由软件还是由人工数据库管理员进行的更改。


收集沿袭元数据有三种竞争技术,每种技术都有其优点和缺点:
1.解码后的血统
该方法不是检查模式的数据值以寻找相似性,而是专注于操纵数据的代码。此类工具(MANTA,Octopai,Spline)扫描所有逻辑以理解它并对其进行反向工程,以了解数据如何变化以及哪些数据用作计算其他数据的输入。这种方法提供最准确,完整和详细的沿袭元数据,因为每一条逻辑都被处理。但它有一些缺点:

为数十种语言开发足够的支持可能并不容易,这些语言必须进行分析才能涵盖环境的基础知识。它也可能会阻止您采用新技术,因为您的已解码的沿袭引擎尚不支持它。
代码版本会随着时间的推移而发生变化,因此您对当前代码数据流的分析可能会错过已被取代的重要流程。
当代码是动态的(您根据程序输入,表中的数据,环境变量等)动态构建表达式时,您需要一种方法来解码动态代码。
并非所有数据更改都是由代码生成的。例如,假设您的网站发生紧急中断,您的DBA会通过直接在生产数据库上执行一系列SQL命令来手动修复。Decoded Lineage工具永远不会检测到这些更改,因为它们是由DBA而不是代码生成的。
代码可能对数据做错了。例如,假设您的代码存储违反GDPR的个人识别信息,并且产品经理明确要求相反。解码的血统工具将忠实地捕获代码所做的事情,而不会引发红旗。
假设两个独立进程中的两段代码执行相同的计算,以在数据库中创建相同的重复数据。代码分析无法发现这种情况,因为每段代码都表现得很好。只有通过检查数据库才能发现并消除重复。


2.数据相似性谱系

此方法通过检查数据和模式而无需访问代码来构建沿袭信息。此类别中的工具(Tamr,Paxata,Trifacta)会在表中分析数据并读取有关表,列等的数据库元数据,然后使用所有这些信息根据相似性创建沿袭。一方面,无论您的编码技术如何,这种方法都将始终有效,因为无论哪种技术生成数据,它都会分析结果数据。但它有几个明显的弱点:

检测大型数据库中的数据相似性需要花费大量时间和处理能力。
结果元数据将缺少许多细节,例如转换逻辑。
它无法检测尚未执行的沿袭元数据。例如,假设您有一个年终会计流程来调整收入和库存。在该流程于12月31日运行之前,您将无法获得有关它的沿袭元数据。


3.手动谱系映射

这种方法通过映射和记录人们头脑中的业务知识来构建沿袭元数据(例如,与应用程序所有者,数据管理员和数据集成专家交谈)。这种方法的优点是它提供了规范的数据沿袭(数据应该如何流动,而不是在实现错误后如何流动)。但是,因为元数据是基于人类的知识,它可能是矛盾的(因为两个人不同意所需的数据流)或部分(如果你不知道数据集的存在,你不会问任何人它)。
正如你所看到的,没有灵丹妙药 - 每种方法都有其优点和缺点。最佳解决方案结合了所有三种方法。
使用MANTA,Octopai或Spline等工具从解码后的血统开始。
使用Tamr,Paxata或Trifacta等工具增加数据相似性谱系,以发现数据库中的模式。
使用手动沿袭映射进行扩充,以捕获规定的沿袭规则(例如,应该如何实现数据流)。
成功组合这些技术后,您可以收集开始享受受管数据优势所需的全面血统元数据。
(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 启动数据治理框架以取得成功

    启动数据治理框架以取得成功

    许多企业坚持不懈地尝试用数据治理框架来证明自己已经取得了很大的成就。然而,定义那些“伟大的东西”绝非易事 - 因为它们中的大多数只构建了……查看详情

    发布时间:2019.02.13来源:数据治理浏览量:177次

  • 最全数据治理工具解析:数据治理工具的关键必备功能

    最全数据治理工具解析:数据治理工具的关键必备功能

    ​数据治理工具被定义为帮助创建和维护一组结构化策略、程序和协议的过程的工具,这些策略、程序和协议控制企业数据的存储、使用和管理方式。本文……查看详情

    发布时间:2021.07.22来源:亿信华辰数据治理浏览量:427次

  • 什么数据可以成为“数据资产”

    什么数据可以成为“数据资产”

    什么数据可以成为数据资产?可作为“资产”的数据资源,表现为以下两种形式:可帮助现有产品实现收益的增长;数据本身可产生价值。……查看详情

    发布时间:2021.09.01来源:亿信华辰浏览量:441次

  • 企业怎样保护业务数据的质量

    企业怎样保护业务数据的质量

    企业内容的质量主要从以下三个方面体现:技术人员设计系统时逻辑严谨,符合规范;业务人员通过统一的培训,录入数据时有统一的规范;管理人员发现……查看详情

    发布时间:2019.09.10来源:知乎浏览量:191次

  • 企业数据治理需要的能力

    企业数据治理需要的能力

    数据治理必然带来新的标准的确立和旧系统的改造,是一个有破有立、无破不立的过程。这一过程设计大量的跨部门、跨条线、跨系统的沟通协调,同时也……查看详情

    发布时间:2021.09.06来源:亿信华辰浏览量:214次

  • 数据中台不等于大数据平台-数据中台价值

    数据中台不等于大数据平台-数据中台价值

    数据中台不等于大数据平台,数据中台的核心工作也并不是将企业的数据全部收集起来做汇总就够了。数据中台的使命是利用大数据技术、通过全局规划来……查看详情

    发布时间:2020.11.21来源:知乎浏览量:259次

  • 数据治理与数据质量的关系

    数据治理与数据质量的关系

    单纯从数据层面来看,数据体系包括治理、管理和应用三个部分。治理是负责解决人与人之间的事,管理负责各个职能领域,应用则是价值的实现。不讨论……查看详情

    发布时间:2018.11.29来源:知乎浏览量:264次

  • 值得关注的 5 大数据治理工具

    值得关注的 5 大数据治理工具

    一旦数据治理策略的广泛目标最终确定,您就需要开始寻找适合您的框架和数据操作的数据治理工具。让我们来看看一些关键的数据治理工具以及它们如何……查看详情

    发布时间:2021.08.10来源:亿信数据治理知识库浏览量:524次

  • 银行的信息科技部门做数据治理的体验

    银行的信息科技部门做数据治理的体验

    银行对于数据治理的态度:从90年代末开始我国银行业信息化之路就已经开启,到了21世纪越来越多的银行开始利用数据进行更为精准的客户营销、提……查看详情

    发布时间:2020.07.31来源:知乎浏览量:217次

  • 数据治理:清洁客户数据的注意事项

    数据治理:清洁客户数据的注意事项

    根据相关研究显示,超过50%的企业花在清理数据上的时间比实际使用时要多,确保数据质量对营销成功至关重要。……查看详情

    发布时间:2019.06.28来源:知乎浏览量:180次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议