银行数据质量管理方法研究与实践

发布时间:2019.02.21来源:知乎浏览量:76次标签:数据治理

一、引言

伴随外部监管要求逐步提高以及市场竞争环境的日益激励,银行对于数据价值的重视提升到了前所未有的高度,数据对于银行来说已经成为一项重要的资产。银行业务重点变化、金融业务联动甚至企业合作都对数据管理提出了更高的要求,尤其是整合多种数据源、创建一致的数据副本,以及提供灵活的数据查询需求。在这些要求中,数据质量因素对于企业数据应用有着至关重要的影响,无论是横向的数据相关运营活动,还是纵向深入的数据分析挖掘实现。数据质量管理是企业数据管理中的一项关键内容,与数据治理、数据标准、元数据、主数据等管理职能相互交叉,并且是数据服务、数据分析、数据挖掘等活动的必备支持条件。


除支持基础业务运营及日常经营决策之外,近年来大数据实践应用对于企业的重要性逐步提高。大数据价值实现流程中会重点面临两个不确定性问题,首先是如何量化数据,数据化即一切皆可“量化”,如沟通变成数据,文字变成数据,方位变成数据等;其次,伴随的数据标准、数据架构问题,以及更长的数据生命周期对应着更多的人为决策因素。不确定的人为因素反映在数据的选择、加工、处理,模型及参数的设计和选择,分析挖掘结果的解读和应用,这些也是数据质量管理需要考虑的问题。


二、数据质量需求与定义
数据质量通常表现为一组具体的流程和技术,用于识别和修正数据中的错误以支持业务运行及决策支持。在银行实际中数据质量管理的应用场景主要包括数据分析挖掘、数据标准化管理、系统建设以及系统运维(图1)等。基于上述四个典型的应用场景,本文重点讨论数据质量管理的流程方法,从需求管理和日常机制两个维度讨论数据质量处理标准过程,数据需求对应信息系统建设以及能够转化为项目形式的数据应用需求,日常机制对应数据质量问题的常规处理机制。

图1 数据质量需求来源

数据需求是信息系统建设需求管理的重要部分,无论是业务角度还是技术角度,数据质量需求都是数据需求中的必备要求。数据质量需求主要有两个来源,分别对应于业务发展和数据管理的原因,前者对应数据应用角度的要求,后者对应企业数据管理目标。业务需求包括常规的系统改造或建设需求,以及数据服务、数据分析、数据挖掘等数据应用性需求。数据需求中应该包括数据质量规则方面的要求,数据需求来源于信息系统常规性需求,以及数据应用相关的需求。


数据质量问题是指数据不满足业务运行、管理与决策的程度,其衡量标准包括了多方面的含义。清晰的定义必然包括多个基本属性,或者说元数据单元。数据质量需求涉及范围和影响程度不一,较小的需求以单系统数据项修改为代表,处理方式简单直接;较大的需求以跨系统数据不一致为代表,剖析根源甚至包括业务规则的调整。数据质量需求对应的问题及原因在数据生命周期中会包括定义、产生、加工、整合、应用等过程,覆盖源系统、数据仓库、数据集市。


三、数据质量管理方法
1.数据质量管理框架
数据质量闭环管理机制以制定规则、问题发现、质量剖析、数据清理、评估验证、持续监控为核心活动(图2),又结合银行的数据实践进行了定制和优化。通常戴明环的四个活动是计划-实施-检查-行动,从质量管理角度出发执行循环工作机制。目前银行数据需求情况复杂多样,通过分析数据质量问题级别进行分类,有大规模跨部门的系统级建设或改造需求,也有业务口径、技术口径确定等中等问题,还有小范围的标准代码值修改等轻微问题,为此闭环机制在设计和实践中要充分考虑多种需求。

分解管理框架中的各项活动,首先是根据企业数据标准制定数据质量校验的业务和技术规则,以及对应的数据质量问题发现及管理;然后按照数据质量维度对抽样或全局数据进行剖析,并结合评估验证进行数据清理;最后通过数据质量持续监控,以数据质量报告的形式汇报并反映数据质量的状况及问题。数据全过程质量管理框架以改进数据质量为目标,确保数据的准确、完整、一致和及时性。通过制定数据质量关键性能指标或积分卡,评估数据质量的改善情况,并形成常态化数据质量管理闭环机制,以凸显数据质量管理的长效机制。


2.数据质量管理策略
从数据管理能力角度分析,数据质量管理策略主要负责质量剖析、评估、清理三项管理内容。在具体实践中,数据质量管理主要分为事件式驱动与主动管理两种模式。事件式驱动适合所有的应用场景,根据实际应用产生的各种数据质量需求均可纳入数据质量管理机制,通过相对固定的流程来解决。主动管理适用的范围相对严格一些,必须有明确的目标导向,以充分利用资源和能力。
目前适合银行的数据质量主动管理主要偏重基础数据和监管报送数据,二者都有明确的要求,能够清晰的制定度量规则,并且整个管理过程也满足数据治理的现状。在数据应用流程中的数据服务、分析、挖掘等工作中,应将数据质量剖析、评估活动纳入正常工作流程,将其中不满足要求的数据问题反馈给数据质量管理人员,纳入闭环工作机制进行处理。
分析数据质量管理对象,首先要重点监控企业现有数据资产的情况,结合数据质量剖析、验证、清理等活动,结合数据分析应用保障数据价值实现;其次,还要充分考虑新数据源的加入,结合元数据相关内容探测数据变化,及时揭示数据质量风险并纳入管理机制。

3.数据质量指标定义
低质量的数据会影响业务目标的完成,数据质量管理人员必须找到并使用数据质量指标,报告数据缺陷与受影响业务目标之间的关系。定义数据质量指标的过程存在着挑战,识别并管理业务相关的数据质量指标,可以与监控业务活动绩效相类比,数据质量指标应该合理地反映数据质量情况,为数据质量管理提供量化依据。
在定义数据质量指标的过程中,需要充分考虑可度量性、业务相关性、可接受程度、可控性、可追踪性等特性,并与数据认责制度充分结合。首先需要分析业务影响,并评估相关的数据元素以及数据生命周期流程;其次针对每个数据元素,列出与之相关的数据需求,并定义数据质量维度以及业务规则;最后针对业务规则,描述度量需求满足度的流程,并定义可接受程度的阈值。


4.数据质量剖析方法
企业数据质量的剖析方法主要包括三种,具体为字段剖析、记录剖析和表间剖析,通常能够覆盖所有的数据资产。实际管理中数据质量剖析用于判断质量情况,为后续的数据质量验证及数据质量清理提供依据,并且数据质量监控规则的制定提供技术口径。


字段剖析用于分析数据记录中的字段,将提供诸如完整性、数据类型、大小、长度、唯一值和频率分布列表、模式、最大和最小范围。字段剖析可用于发现数据质量问题,核实数据与预期值的符合性,并比较实际数据和目标需求。
记录剖析用于分析表格或文件内部字段之间的关联关系,进而能够发现实际数据结构、函数依赖关系、主键和数据结构中存在的质量问题,也可用于预测预期用户对数据的依赖关系。
表间分析用于比较表格或文件之间的数据,确定重叠的或相同的数值集,识别重复值或指出外键,判断数据的一致性等。表间剖析的结果可以帮助标准化数据模型,在模型中消除无用的冗余。

5.数据质量监控技术
在数据质量监控环节将数据质量控制和测量流程嵌入到信息处理流程,从而实现可持续的质量监控。依据数据粒度分布情况,采用两种形式来监控数据质量满足业务要求的情况。结合数据质量剖析方法,有字段、记录、表间三种粒度数据质量监控方法,对应的评价指标对应覆盖字段数据值、数据记录以及完整的数据集。
根据监控目标,数据质量监控分为常规闭环监控以及批量运动式两种,这与数据质量的需求来源保持对应关系。企业整体数据质量要求通过闭环机制进行持续监控推进,支持业务运营和基础的数据应用;对于数据分析、挖掘探索对应的质量需求,以及系统建设的需求,可以通过批量式以项目重要环节的形式完成质量监控。定义数据质量业务规则的详细技术如下表所示:

四、数据质量能力要求

数据质量管理活动保障数据价值变现,覆盖整个数据生命周期,其综合性和复杂性决定了对管理人员和方法的高标准要求。数据质量管理人员需要了解业务知识,还要懂得技术架构,是典型的综合型人才。与之伴随对管理人员的沟通协调能力要求也很高,数据质量管理覆盖整个数据生命周期的价值实现,相关人员及工作任务的影响广度和沟通深度都是数据管理各职能活动中的典型。


数据质量管理成功与否最重要是人的因素,其次还要考虑工具支持,这方面面临的问题主要是自主研发还是购买的选择。通常企业可以根据实际需求自己建设数据质量管理系统,或者购买一个成型的产品。基本功能包括支持数据质量分析、监控、整改、报告等活动,目前新型的数据质量系统需要支持把功能作为服务(Data Quality As Service)的方式进行发布,这样数据质量管理系统就能够作为企业的基础服务,提供给各个业务系统和各数据管理应用角色进行使用。数据质量服务整合数据质量相关的剖析、监控、验证等活动,以服务的形式提供给数据分析、数据挖掘人员,其应用架构如图3所示。基于上述拓展的功能要求,长期看建议购买有效的工具为首选,这样更有利于成本控制和快速部署。


五、信息质量管理趋势
关注数据质量的同时,还要进一步关注覆盖范围更加广泛、涉及层面更加深入的信息质量,这也是数据管理需要思考的问题。苏联数学家Kolmogorov对信息的定义是:“信息是在给内数据集内的对客观事物的语义描述”。进一步信息又可分为物理信息和语义信息两类,其中物理层面的信息反映基础的数据结构;语义信息属于进阶有含义的语义数据结构,反映人类的视角。


目前数据质量管理方法中对于语义信息的关注较少,更多的是关注常规物理信息,以及可以转化为物理信息的语义信息,其原因在于信息质量更为复杂。错误的数据能导致错误的信息,物理信息容易度量,语义信息相对较难用简单的规则度量。在一个数据挖掘应用中,错误的语义信息会来源于知识发现过程中的数据集选择、模型选择、参数选择、验证方式选择,基本上所有的过程都需要加入人为的理解因素。从传统软件开发质量保障角度,也需要对语义相关的信息质量进行考虑,确保数据价值的不被曲解或者损失。在移动计算、物联网、大数据等新理念趋势下,信息质量面临的问题更加值得关注。


从整体数据管理角度来看,语义信息的质量保障依赖于整体数据管理水平,数据治理、元数据、数据标准等活动都会发挥作用。数据治理定义数据质量相关角色、职责,元数据、数据标准为一致性的语义理解提供参考作用。近年来软件即服务(SaaS)和云计算应用(Cloud-Based)趋势日益明显,信息技术新趋势的影响也促使数据质量管理从独立的闭环机制拓展到完整的宏观数据质量管理体系。银监会于2011年发布银行监管统计数据质量管理良好标准,该标准以数据质量为目标涵盖组织、制度、系统和流程建设,是银行开展全面数据质量管理的有益参考。


六、结束语
本文着重关注数据质量的管理方法和实践,充分结合内外部因素分析了银行实际需求以及国内外数据质量管理先进经验,并深入讨论了需求定义、管理策略、剖析方法等内容,提出了适合于银行业的数据质量管理方法。该方法用于指导银行数据质量管理实践,并在实践中不断完善和优化。在此基础上,本文还讨论了数据质量管理相关人员能力和技术要求,以及广义范围的信息质量管理内容。
数据管理方法是以解决数据质量需求为目标,实际数据质量的保障需要整体的数据管理能力,以及数据应用水平的提高。管理和应用的充分结合,涉及管理理论和数据价值实现的多项研究内容,这写是本文后续将深入研究的内容。此外,数据管理方法在银行实践中的深化,研究量化评价准则以配合数据质量从主动管理到量化管理发展也是重要的研究方向。

(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议