银行数据质量管理方法研究与实践
发布时间:2019.02.21来源:知乎浏览量:105次标签:数据治理
伴随外部监管要求逐步提高以及市场竞争环境的日益激励,银行对于数据价值的重视提升到了前所未有的高度,数据对于银行来说已经成为一项重要的资产。银行业务重点变化、金融业务联动甚至企业合作都对数据管理提出了更高的要求,尤其是整合多种数据源、创建一致的数据副本,以及提供灵活的数据查询需求。在这些要求中,数据质量因素对于企业数据应用有着至关重要的影响,无论是横向的数据相关运营活动,还是纵向深入的数据分析挖掘实现。数据质量管理是企业数据管理中的一项关键内容,与数据治理、数据标准、元数据、主数据等管理职能相互交叉,并且是数据服务、数据分析、数据挖掘等活动的必备支持条件。
除支持基础业务运营及日常经营决策之外,近年来大数据实践应用对于企业的重要性逐步提高。大数据价值实现流程中会重点面临两个不确定性问题,首先是如何量化数据,数据化即一切皆可“量化”,如沟通变成数据,文字变成数据,方位变成数据等;其次,伴随的数据标准、数据架构问题,以及更长的数据生命周期对应着更多的人为决策因素。不确定的人为因素反映在数据的选择、加工、处理,模型及参数的设计和选择,分析挖掘结果的解读和应用,这些也是数据质量管理需要考虑的问题。
数据质量通常表现为一组具体的流程和技术,用于识别和修正数据中的错误以支持业务运行及决策支持。在银行实际中数据质量管理的应用场景主要包括数据分析挖掘、数据标准化管理、系统建设以及系统运维(图1)等。基于上述四个典型的应用场景,本文重点讨论数据质量管理的流程方法,从需求管理和日常机制两个维度讨论数据质量处理标准过程,数据需求对应信息系统建设以及能够转化为项目形式的数据应用需求,日常机制对应数据质量问题的常规处理机制。
图1 数据质量需求来源
数据需求是信息系统建设需求管理的重要部分,无论是业务角度还是技术角度,数据质量需求都是数据需求中的必备要求。数据质量需求主要有两个来源,分别对应于业务发展和数据管理的原因,前者对应数据应用角度的要求,后者对应企业数据管理目标。业务需求包括常规的系统改造或建设需求,以及数据服务、数据分析、数据挖掘等数据应用性需求。数据需求中应该包括数据质量规则方面的要求,数据需求来源于信息系统常规性需求,以及数据应用相关的需求。
数据质量问题是指数据不满足业务运行、管理与决策的程度,其衡量标准包括了多方面的含义。清晰的定义必然包括多个基本属性,或者说元数据单元。数据质量需求涉及范围和影响程度不一,较小的需求以单系统数据项修改为代表,处理方式简单直接;较大的需求以跨系统数据不一致为代表,剖析根源甚至包括业务规则的调整。数据质量需求对应的问题及原因在数据生命周期中会包括定义、产生、加工、整合、应用等过程,覆盖源系统、数据仓库、数据集市。
1.数据质量管理框架
数据质量闭环管理机制以制定规则、问题发现、质量剖析、数据清理、评估验证、持续监控为核心活动(图2),又结合银行的数据实践进行了定制和优化。通常戴明环的四个活动是计划-实施-检查-行动,从质量管理角度出发执行循环工作机制。目前银行数据需求情况复杂多样,通过分析数据质量问题级别进行分类,有大规模跨部门的系统级建设或改造需求,也有业务口径、技术口径确定等中等问题,还有小范围的标准代码值修改等轻微问题,为此闭环机制在设计和实践中要充分考虑多种需求。
分解管理框架中的各项活动,首先是根据企业数据标准制定数据质量校验的业务和技术规则,以及对应的数据质量问题发现及管理;然后按照数据质量维度对抽样或全局数据进行剖析,并结合评估验证进行数据清理;最后通过数据质量持续监控,以数据质量报告的形式汇报并反映数据质量的状况及问题。数据全过程质量管理框架以改进数据质量为目标,确保数据的准确、完整、一致和及时性。通过制定数据质量关键性能指标或积分卡,评估数据质量的改善情况,并形成常态化数据质量管理闭环机制,以凸显数据质量管理的长效机制。
3.数据质量指标定义
低质量的数据会影响业务目标的完成,数据质量管理人员必须找到并使用数据质量指标,报告数据缺陷与受影响业务目标之间的关系。定义数据质量指标的过程存在着挑战,识别并管理业务相关的数据质量指标,可以与监控业务活动绩效相类比,数据质量指标应该合理地反映数据质量情况,为数据质量管理提供量化依据。
4.数据质量剖析方法
企业数据质量的剖析方法主要包括三种,具体为字段剖析、记录剖析和表间剖析,通常能够覆盖所有的数据资产。实际管理中数据质量剖析用于判断质量情况,为后续的数据质量验证及数据质量清理提供依据,并且数据质量监控规则的制定提供技术口径。
5.数据质量监控技术
在数据质量监控环节将数据质量控制和测量流程嵌入到信息处理流程,从而实现可持续的质量监控。依据数据粒度分布情况,采用两种形式来监控数据质量满足业务要求的情况。结合数据质量剖析方法,有字段、记录、表间三种粒度数据质量监控方法,对应的评价指标对应覆盖字段数据值、数据记录以及完整的数据集。
数据质量管理活动保障数据价值变现,覆盖整个数据生命周期,其综合性和复杂性决定了对管理人员和方法的高标准要求。数据质量管理人员需要了解业务知识,还要懂得技术架构,是典型的综合型人才。与之伴随对管理人员的沟通协调能力要求也很高,数据质量管理覆盖整个数据生命周期的价值实现,相关人员及工作任务的影响广度和沟通深度都是数据管理各职能活动中的典型。
五、信息质量管理趋势
关注数据质量的同时,还要进一步关注覆盖范围更加广泛、涉及层面更加深入的信息质量,这也是数据管理需要思考的问题。苏联数学家Kolmogorov对信息的定义是:“信息是在给内数据集内的对客观事物的语义描述”。进一步信息又可分为物理信息和语义信息两类,其中物理层面的信息反映基础的数据结构;语义信息属于进阶有含义的语义数据结构,反映人类的视角。
目前数据质量管理方法中对于语义信息的关注较少,更多的是关注常规物理信息,以及可以转化为物理信息的语义信息,其原因在于信息质量更为复杂。错误的数据能导致错误的信息,物理信息容易度量,语义信息相对较难用简单的规则度量。在一个数据挖掘应用中,错误的语义信息会来源于知识发现过程中的数据集选择、模型选择、参数选择、验证方式选择,基本上所有的过程都需要加入人为的理解因素。从传统软件开发质量保障角度,也需要对语义相关的信息质量进行考虑,确保数据价值的不被曲解或者损失。在移动计算、物联网、大数据等新理念趋势下,信息质量面临的问题更加值得关注。
从整体数据管理角度来看,语义信息的质量保障依赖于整体数据管理水平,数据治理、元数据、数据标准等活动都会发挥作用。数据治理定义数据质量相关角色、职责,元数据、数据标准为一致性的语义理解提供参考作用。近年来软件即服务(SaaS)和云计算应用(Cloud-Based)趋势日益明显,信息技术新趋势的影响也促使数据质量管理从独立的闭环机制拓展到完整的宏观数据质量管理体系。银监会于2011年发布银行监管统计数据质量管理良好标准,该标准以数据质量为目标涵盖组织、制度、系统和流程建设,是银行开展全面数据质量管理的有益参考。
本文着重关注数据质量的管理方法和实践,充分结合内外部因素分析了银行实际需求以及国内外数据质量管理先进经验,并深入讨论了需求定义、管理策略、剖析方法等内容,提出了适合于银行业的数据质量管理方法。该方法用于指导银行数据质量管理实践,并在实践中不断完善和优化。在此基础上,本文还讨论了数据质量管理相关人员能力和技术要求,以及广义范围的信息质量管理内容。
-
2019年的数据前景如何
这三个与数据相关的趋势今年值得关注。 公司喜欢技术堆栈所有层的“即服务”模式,从云供应商提供的基础架构到完整的SaaS应用程序。但是……查看详情发布时间:2019.01.07来源:数据治理浏览量:93次
-
8 项提高数据完整性的预防性措施
仅使用一种方法几乎不可能将数据完整性风险降至最低,因此使用多种策略的组合是更好的选择。降低数据完整性风险的一些最有效方法包括8点。……查看详情发布时间:2021.07.07来源:亿信华辰数据治理知识库浏览量:553次
-
什么是数据治理?为何数据治理如此重要?
如我们所见,数据正在以前所未有的速度增长,IDC曾发布报告称,到2025年,全球数据圈预计将增长至175 ZB。如何在这样一个数据大爆发……查看详情发布时间:2020.03.26来源:知乎浏览量:87次
-
增强数据管理吸引了更多企业的兴趣
“我认为数据专业人员确实希望机器处理繁琐且计算密集的东西,”Henschen说。“有很多工作要做,让机器处理他们最擅长的事情,这将使人类……查看详情发布时间:2019.03.07来源:亿信华辰浏览量:89次
-
融”出生命力 “合”出新动能:贵阳推动大数据与实体经济深度融合发展
“它以当前中国经济罕见的两位数增长率,领跑全国城市。它以创新驱动传统产业转型升级的路径,成为后发优势地区仰望的标杆。”这是去年12月15……查看详情发布时间:2019.02.26来源:亿信华辰浏览量:89次
-
企业为什么要进行数据资产管理?
随着大数据时代的来临,对数据的重视提到了前所未有的高度,“数据即资产”已经被广泛认可。数据就像企业的根基,是各企业尚待发掘的财富,即将……查看详情发布时间:2022.05.27来源:小亿浏览量:718次
-
企业数据治理的目的、意义及挑战有哪些?
随着大数据相关技术的不断成熟,数据作为一种资产,得到了越来越多企业机构的重视,为了能够有效的利用数据资产,数据治理成了当下政府和企业重点……查看详情发布时间:2022.05.11来源:小亿浏览量:423次
-
数据治理的坑你遇到过几个?
数据治理是一项长期而繁杂的工作,很多时候大家都为如何做好数据治理而感到困惑,甚至很多时候对此失去了信心。……查看详情发布时间:2019.08.19来源:御数坊浏览量:102次
-
数据治理中如何做好数据清理与归档
传统上,数据的清理和归档属于DBA的职责,随着企业数字化转型、数据治理工作的推进,这项工作也被纳入了数据治理工作的重要内容。数据团队定期……查看详情发布时间:2022.05.31来源:互联网浏览量:294次