2021金融数据治理案例分享

发布时间:2021.04.09来源:数据治理研究院浏览量:3次标签:数据治理

2021年,分析机构BARC在一项研究中对全球378家公司进行了调查,96%的受访企业认为,数据治理已经不可或缺,而且未来将继续在企业中发挥核心作用。调查显示,合规性(64%)、更有效地使用数据(54%),以及与业务相关的内部和外部数据的不断增加(54%)是企业制定数据治理计划的主要驱动因素。


越来越多的大型企业正走在数据治理的道路上,以下内容为蚂蚁金服数据治理实施案例分享。

蚂蚁金服数据治理.png

摘要:以“数字金融新原力(The New Force of Digital Finance)”为主题,蚂蚁金服ATEC城市峰会于2019年1月4日上海如期举办。金融智能专场分论坛上,蚂蚁金服数据平台部高级数据技术专家李俊华做了主题为《蚂蚁金服数据治理之数据质量治理实践》的精彩分享。


蚂蚁金服数据治理专家李俊华主要围绕以下三部分进行分享:


数据治理概况

数据质量治理挑战

数据质量治理实践


一、数据治理概况

近年来,蚂蚁金服不断在数据架构上进行升级改造,其目的在于解决蚂蚁所面临的数据物理孤岛问题。如今,蚂蚁以及整个阿里巴巴集团的底座都统一到了同一个平台上,这样当实现第五代数据架构体系升级时,就降低了一站式研发的整体门槛,并使得蚂蚁金服的所有工程师都可以在平台上轻松玩转数据。如今,在蚂蚁的数据架构中已经能够很好地解决数据孤岛问题,而如今在数据治理体系中所需要关注的就是逻辑的孤岛。


在对数据治理展开论述之前,先谈一谈数据价值。之前的情况是,当数据首先需要经过专门团队负责处理,删除没有价值的数据,负责上线或者下线数据。但是,对于数据价值的判断也是一个非常令人头疼的问题,大部分的数据只会上线不会下线,这样就造成了大量没有价值的数据的堆积。而如今,蚂蚁不仅关心下线没有价值的数据,同时也侧重数据资产的价值最大化。在数据价值方面,蚂蚁有一套完整的数据资产等级以及数据资产的易用模型,这样就能够驱动自身充分利用数据资产,来创造更多的价值。但是如果这些数据被使用了,但是质量却很低,这样就会使得数据资产的价值大打折扣。


数据质量产生分析


接下来将重点介绍蚂蚁金服在数据治理质量领域的实践思路和方案,并与大家分享两个案例。如下图所示的是抽象数据抽取的全流程图。当某个业务同学录入数据的时候出现一点错误,就会造成数据的质量问题,比如把客户的行业信息填错或者打错了一个字都会造成数据质量问题,而这样的问题很容易出现。在基于传统数据库资产开发数据应用的时候,基本都是从数据源端产数据过来,经过加工、分析再将数据发送出去,也就是“从业务中来,最后回到业务中去”。现在的方案与之前存在很大区别,以前做数据处理时,从数据生产的采集数据来,加工之后就给出去了,而如今蚂蚁很多数据应用将数据处理之后还会回到数据系统中。比如芝麻信用分的计算中存在很多大家看不到的场景,这些数据处理之后还会回到系统之中,而这个过程中每个环节都可能存在数据质量问题。

蚂蚁金服数据质量产生分析.png

二、数据质量治理的挑战

在下图中的左侧展示了蚂蚁的业务形态。如今,蚂蚁的业务场景已经不再仅限于统计分析,而在蚂蚁的芝麻分、花呗、借呗以及“310”放款的背后都是数据在进行支撑并驱动着其发展。今天,蚂蚁的业务形态成为了“技术+数据+算法”三者的融合来追求价值最大化。与此同时,数据质量治理也存在着诸多挑战,它们来自于业务方面、数据方面、用户方面。


三、数据质量治理实践


数据质量治理思路


从事金融业务的同学往往深有感触,互联网金融时代业务的生命周期缩短了很多,并且变化也非常频繁,相比于原本银行的节奏显得非常快。此外,目前无论是蚂蚁金服还是阿里巴巴都在谈“数据业务化、业务数据化”,数据和业务一同共同发展和前进,并且已经进入了发展的深水区。之前的几年,蚂蚁在业务上偏向于“T+1”,而如今,原来的架构体系不足以支撑蚂蚁未来继续发展以及高时效性的诉求。同时,如今蚂蚁的数据体量很大,而数据业务也驱动蚂蚁的整个人才体系的升级。现在,除了本身做数据算法研发的同学之外,其他的技术同学也都会在平台上使用数据,这些同学可能对于数据的认知不同,那么在数据驱动下真正保证数据质量就显得异常重要。


那么如何实现数据质量治理呢?首先,需要有一套明确的组织,这是持续建设企业文化的土壤,而数据质量治理文化的建设一定是一个确定的、有组织的并且需要长期持续推进的事情。在组织保障和质量文化的基础之上,蚂蚁还侧重了研发流和数据流。在金融领域,研发流的管控更严格,也更严谨。而对于如今的互联网金融而言,也需要进行强管控,这是因为业务形态决定了研发周期很短,现在蚂蚁在研发流做了强管控,在一站式数据研发平台上,使用了分级管控。需求提出之后就会被等级管理,并且进行打标,进而走入不同流程。此外,研发流上还侧重分级管控,在同一套标准上定义级别,拉平不同的研发流。对于数据流而言,当一个应用发布到生产环境之后,大部分精力花费在数据流中,每天需要从生产环境将数据采集到处理平台,然后运行算法计算,之后将数据返回到生产环境中,走这样的闭环。如今,蚂蚁在数据流链路上做了很多事情,也建设了很多能力。对于数据流而言,如果源头被污染了,如果不能控制其污染到下游,那么越往下修复成本就越大。

数据治理治理思路.png

基于以上的数据质量治理思路,蚂蚁金服做了很多有意思的东西,在数据平台运行时会将整个体系监控起来,如果出现数据质量故障,就能够及时进行修复。此外,从研发到生产的各个环节,蚂蚁都做了大量的工作,这是因为基于平台进行数据研发的同学很多,需要尽量降低使用门槛。对于全数据流而言,主要建设了四大能力,包括感知能力、识别能力、智愈能力和运营能力。平台需要能够感知发布任务的故障问题以及数据质量问题,此外,平台需要能够识别出潜在风险,因为需要非常及时地了解被破坏的数据。当风险被识别出来之后,就需要智愈能力,之所以使用“智”,是因为原本数据处理任务往往是离线的,可能从凌晨开始到早上8点钟左右属于数据生产高峰,在这段时间里会有人员参与质量保障任务。而智愈能力就希望通过AI算法来配合数据处理工作,使得感知能力叠加算法能力,能够对于数据感染进行自愈。最后是运营能力,数据质量不会被展现在前台,如果数据质量足够好,完全可以实现无感知,使用者不用再担心数据能不能用,也不会出现敢不敢用的疑惑,因此数据质量对于运营而言也非常重要。其实,数据质量问题既不仅属于研发也不仅属于业务,而是需要全员参与,共同来解决,这就是数据治理的思路。


蚂蚁数据质量治理架构


如下图所示的是蚂蚁金服的数据质量治理架构体系。在系统层,按照上述所谈到的具体思路,研发阶段主要集中在数据测试、发布管控以及变更管理等方面的建设,这里着重提及变更问题,数据的变更不仅仅设计到系统层的变更管理,也会涉及到在线系统的相互打通。如今,在线数据源的变更,也会使得数据运营发生变更,更可能会导致数据运营的数据质量问题。在线研发部分为数据运营系统提供了一些相关的接口,能够通知使用者线上的哪些变更会影响到数据运营。对于发布管控能力而言,蚂蚁投入了大量精力进行研发。目前在蚂蚁已经没有专职负责数据测试的同学,基本上全部都是全栈工程师,所以对于研发而言可能管控不是非常强,但却实现了强大的发布管控能力,将与经验、规范、性能以及质量相关的检测全部在这部分执行。

蚂蚁数据质量治理架构.png

在生产阶段,则主要侧重于质量监控、应急演练以及质量治理这三个系统能力。质量监控告警系统能力在大部分的数据系统架构中应该都有,其功能类似于汽车的刹车功能,因此肯定是存在的。而蚂蚁却做了一件很有意思的事情——数据攻防演练,工程师会人为创造故障,然后测试系统能否在短时间内发现故障并进行有效修复,这部分也是目前蚂蚁在重点进行建设的能力。在质量治理部分,会根据不同应用的级别,发布到生产环境之后进行定期巡检,分析是否会影响数据质量。总之,对于数据质量架构体系的系统层而言,不仅原数据非常重要,如今更是结合机器学习来自动配置一些相关策略。


数据质量治理方案


如下图所示的是蚂蚁金服在实践中的事前、事中、事后的数据质量质量方案。整体而言,事前包括需求、研发、和预发三个阶段,而如今蚂蚁在事前可以做到的可管控、可仿真、可灰度。在事中,监控问题是重点建设的,出现问题不可怕,但是需要实现自主发现问题。而为了使得防御能力更强,蚂蚁实现了主动的攻击演练,而正是通过攻防演练,帮助蚂蚁发现了自身很多薄弱的地方。除此之外,还在事中提供了强大的应急能力,某些事件将会触发应急预案,在这部分,保证数据质量其实就是把不确定的数据风险变成确定的东西。在事后,数据质量也非常重要,事后需要通过有效的指标和管控手段来进行审计和度量,以此发现整个链路上不完善的地方并持续完善。

数据质量治理方案.png

数据质量治理案例


最后为大家分享蚂蚁金服在数据质量治理方面的两个案例:


案例1:在蚂蚁数据治理架构体系下的发布环节,实现了一个发布强管控的流程。任何脚本在提交时都需要经过检测,然后发布到线上,并再进行一次检测。

案例2:数据治理涉及到整个链路,而针对不同链路上的数据版本,数据采集主要是将数据从一端搬运到另一端,不存在加工的过程,此时可以人为注入一些故障,分析数据质量治理体系能否发现问题并作出修改,因此这就产生了“攻”与“防”双方。数据加工处理又另外一套体系结构,其涉及逻辑的加工,更多地需要考虑注入怎样的故障,需要面临什么。如今,在蚂蚁真正落地数据质量治理体系的时候,在攻防演练环节投入了大量精力。


了解更多数据治理相关知识:https://www.esensoft.com/industry-news/data-governance-2720.html

(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 数据治理模型 - 组织数据质量管理的责任

    数据治理模型 - 组织数据质量管理的责任

    企业需要数据质量管理(DQM),它结合了业务驱动和技术观点,以应对需要高质量企业数据的战略和运营挑战。迄今为止,公司已将DQM的责任主要……查看详情

    发布时间:2018.12.21来源:数据治理浏览量:1次

  • 大数据应用与治理

    大数据应用与治理

    不可否认的是,大数据产业很快就要迎来自己的爆发期。经过几年基础建设的培育,技术层面已基本可以满足相关应用,所以行业人士也普遍达成共识,接……查看详情

    发布时间:2019.03.08来源:亿信华辰浏览量:1次

  • 做好数据治理才能建设大数据平台

    做好数据治理才能建设大数据平台

    大数据不是凭空而来,1981年第一个数据仓库诞生,到现在已经有了近40年的历史,而国内企业数据平台的建设大概从90年代末就开始了,从第一……查看详情

    发布时间:2018.11.28来源:数据治理浏览量:2次

  • 大数据是如何被采集及应用的

    大数据是如何被采集及应用的

    尽管“大数据”一词近年来屡遭热捧,但很多人都还不知道什么是大数据,更不知道大数据有什么用。这两年,发现“大数据”这个词出现的越来越频繁了……查看详情

    发布时间:2019.01.11来源:亿信华辰浏览量:6次

  • 数据治理的十五个最佳实践

    数据治理的十五个最佳实践

    数据治理研究所(DGI)认为,它是一套切实可行的框架,帮助任何组织的各种数据利益相关方识别并满足其信息需求。DGI认为,企业不仅需要管理……查看详情

    发布时间:2020.07.31来源:知乎浏览量:2次

  • 主数据管理从哪着手?如何进行?

    主数据管理从哪着手?如何进行?

    所有主数据必须使用同一编码规则,如果编码不同,系统永远无法打通对接。如果有国标,尽量采用国标,未来也便于对接供应链体系中上下游的供应商和……查看详情

    发布时间:2021.05.07来源:亿信数据治理知识库浏览量:2次

  • 数据治理:大学数据的分类

    数据治理:大学数据的分类

    所有学院数据都被分类为敏感级别,为理解和管理大学数据提供基础。准确的分类为大学数据应用适当的安全级别提供了基础。这些分类考虑了法律保护(……查看详情

    发布时间:2018.11.26来源:数据治理浏览量:2次

  • 数据治理和流分析的关系

    数据治理和流分析的关系

    借助流分析,可以通过智能数据模型和算法快速处理传入数据,以致在许多情况下,流数据没有机会被存储。与传统的分析过程相比,这是一个重要的变化……查看详情

    发布时间:2021.04.23来源:亿信数据治理知识库浏览量:3次

  • 治理:如何做对

    治理:如何做对

    如果您在任何规模的组织中工作,您可能不得不与某种治理委员会打交道。这些都是出了名的狡猾。继续阅读,看看如何避免常见的陷阱。……查看详情

    发布时间:2019.03.11来源:亿信华辰浏览量:4次

  • 2019年采用大数据发生重大变化的6个行业

    2019年采用大数据发生重大变化的6个行业

    如今,大数据的应用对几乎任何行业的发展都会产生积极的影响,而采用这项技术,一些行业比其他行业更有可能发生重大的变化。以下是采用大数据发生……查看详情

    发布时间:2019.02.14来源:亿信华辰浏览量:2次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议