银行数据质量管理方法研究与实践
发布时间:2019.02.21来源:知乎浏览量:76次标签:数据治理
伴随外部监管要求逐步提高以及市场竞争环境的日益激励,银行对于数据价值的重视提升到了前所未有的高度,数据对于银行来说已经成为一项重要的资产。银行业务重点变化、金融业务联动甚至企业合作都对数据管理提出了更高的要求,尤其是整合多种数据源、创建一致的数据副本,以及提供灵活的数据查询需求。在这些要求中,数据质量因素对于企业数据应用有着至关重要的影响,无论是横向的数据相关运营活动,还是纵向深入的数据分析挖掘实现。数据质量管理是企业数据管理中的一项关键内容,与数据治理、数据标准、元数据、主数据等管理职能相互交叉,并且是数据服务、数据分析、数据挖掘等活动的必备支持条件。
除支持基础业务运营及日常经营决策之外,近年来大数据实践应用对于企业的重要性逐步提高。大数据价值实现流程中会重点面临两个不确定性问题,首先是如何量化数据,数据化即一切皆可“量化”,如沟通变成数据,文字变成数据,方位变成数据等;其次,伴随的数据标准、数据架构问题,以及更长的数据生命周期对应着更多的人为决策因素。不确定的人为因素反映在数据的选择、加工、处理,模型及参数的设计和选择,分析挖掘结果的解读和应用,这些也是数据质量管理需要考虑的问题。
数据质量通常表现为一组具体的流程和技术,用于识别和修正数据中的错误以支持业务运行及决策支持。在银行实际中数据质量管理的应用场景主要包括数据分析挖掘、数据标准化管理、系统建设以及系统运维(图1)等。基于上述四个典型的应用场景,本文重点讨论数据质量管理的流程方法,从需求管理和日常机制两个维度讨论数据质量处理标准过程,数据需求对应信息系统建设以及能够转化为项目形式的数据应用需求,日常机制对应数据质量问题的常规处理机制。
图1 数据质量需求来源
数据需求是信息系统建设需求管理的重要部分,无论是业务角度还是技术角度,数据质量需求都是数据需求中的必备要求。数据质量需求主要有两个来源,分别对应于业务发展和数据管理的原因,前者对应数据应用角度的要求,后者对应企业数据管理目标。业务需求包括常规的系统改造或建设需求,以及数据服务、数据分析、数据挖掘等数据应用性需求。数据需求中应该包括数据质量规则方面的要求,数据需求来源于信息系统常规性需求,以及数据应用相关的需求。
数据质量问题是指数据不满足业务运行、管理与决策的程度,其衡量标准包括了多方面的含义。清晰的定义必然包括多个基本属性,或者说元数据单元。数据质量需求涉及范围和影响程度不一,较小的需求以单系统数据项修改为代表,处理方式简单直接;较大的需求以跨系统数据不一致为代表,剖析根源甚至包括业务规则的调整。数据质量需求对应的问题及原因在数据生命周期中会包括定义、产生、加工、整合、应用等过程,覆盖源系统、数据仓库、数据集市。
1.数据质量管理框架
数据质量闭环管理机制以制定规则、问题发现、质量剖析、数据清理、评估验证、持续监控为核心活动(图2),又结合银行的数据实践进行了定制和优化。通常戴明环的四个活动是计划-实施-检查-行动,从质量管理角度出发执行循环工作机制。目前银行数据需求情况复杂多样,通过分析数据质量问题级别进行分类,有大规模跨部门的系统级建设或改造需求,也有业务口径、技术口径确定等中等问题,还有小范围的标准代码值修改等轻微问题,为此闭环机制在设计和实践中要充分考虑多种需求。
分解管理框架中的各项活动,首先是根据企业数据标准制定数据质量校验的业务和技术规则,以及对应的数据质量问题发现及管理;然后按照数据质量维度对抽样或全局数据进行剖析,并结合评估验证进行数据清理;最后通过数据质量持续监控,以数据质量报告的形式汇报并反映数据质量的状况及问题。数据全过程质量管理框架以改进数据质量为目标,确保数据的准确、完整、一致和及时性。通过制定数据质量关键性能指标或积分卡,评估数据质量的改善情况,并形成常态化数据质量管理闭环机制,以凸显数据质量管理的长效机制。
3.数据质量指标定义
低质量的数据会影响业务目标的完成,数据质量管理人员必须找到并使用数据质量指标,报告数据缺陷与受影响业务目标之间的关系。定义数据质量指标的过程存在着挑战,识别并管理业务相关的数据质量指标,可以与监控业务活动绩效相类比,数据质量指标应该合理地反映数据质量情况,为数据质量管理提供量化依据。
4.数据质量剖析方法
企业数据质量的剖析方法主要包括三种,具体为字段剖析、记录剖析和表间剖析,通常能够覆盖所有的数据资产。实际管理中数据质量剖析用于判断质量情况,为后续的数据质量验证及数据质量清理提供依据,并且数据质量监控规则的制定提供技术口径。
5.数据质量监控技术
在数据质量监控环节将数据质量控制和测量流程嵌入到信息处理流程,从而实现可持续的质量监控。依据数据粒度分布情况,采用两种形式来监控数据质量满足业务要求的情况。结合数据质量剖析方法,有字段、记录、表间三种粒度数据质量监控方法,对应的评价指标对应覆盖字段数据值、数据记录以及完整的数据集。
数据质量管理活动保障数据价值变现,覆盖整个数据生命周期,其综合性和复杂性决定了对管理人员和方法的高标准要求。数据质量管理人员需要了解业务知识,还要懂得技术架构,是典型的综合型人才。与之伴随对管理人员的沟通协调能力要求也很高,数据质量管理覆盖整个数据生命周期的价值实现,相关人员及工作任务的影响广度和沟通深度都是数据管理各职能活动中的典型。
五、信息质量管理趋势
关注数据质量的同时,还要进一步关注覆盖范围更加广泛、涉及层面更加深入的信息质量,这也是数据管理需要思考的问题。苏联数学家Kolmogorov对信息的定义是:“信息是在给内数据集内的对客观事物的语义描述”。进一步信息又可分为物理信息和语义信息两类,其中物理层面的信息反映基础的数据结构;语义信息属于进阶有含义的语义数据结构,反映人类的视角。
目前数据质量管理方法中对于语义信息的关注较少,更多的是关注常规物理信息,以及可以转化为物理信息的语义信息,其原因在于信息质量更为复杂。错误的数据能导致错误的信息,物理信息容易度量,语义信息相对较难用简单的规则度量。在一个数据挖掘应用中,错误的语义信息会来源于知识发现过程中的数据集选择、模型选择、参数选择、验证方式选择,基本上所有的过程都需要加入人为的理解因素。从传统软件开发质量保障角度,也需要对语义相关的信息质量进行考虑,确保数据价值的不被曲解或者损失。在移动计算、物联网、大数据等新理念趋势下,信息质量面临的问题更加值得关注。
从整体数据管理角度来看,语义信息的质量保障依赖于整体数据管理水平,数据治理、元数据、数据标准等活动都会发挥作用。数据治理定义数据质量相关角色、职责,元数据、数据标准为一致性的语义理解提供参考作用。近年来软件即服务(SaaS)和云计算应用(Cloud-Based)趋势日益明显,信息技术新趋势的影响也促使数据质量管理从独立的闭环机制拓展到完整的宏观数据质量管理体系。银监会于2011年发布银行监管统计数据质量管理良好标准,该标准以数据质量为目标涵盖组织、制度、系统和流程建设,是银行开展全面数据质量管理的有益参考。
本文着重关注数据质量的管理方法和实践,充分结合内外部因素分析了银行实际需求以及国内外数据质量管理先进经验,并深入讨论了需求定义、管理策略、剖析方法等内容,提出了适合于银行业的数据质量管理方法。该方法用于指导银行数据质量管理实践,并在实践中不断完善和优化。在此基础上,本文还讨论了数据质量管理相关人员能力和技术要求,以及广义范围的信息质量管理内容。
-
解锁数据治理:亿信华辰的数据治理工具引领风潮
在数字化飞速发展的时代,数据已成为企业的重要资产。然而,如何有效管理和利用这一资产,确保数据的质量、安全性和合规性,是企业面临的挑战。亿……查看详情发布时间:2023.09.27来源:浏览量:35次
-
数据治理:让数据质量更好(data governance)
核心提示:大数据时代数据产生的价值越来越大,基于数据的相关技术、应用形式也在快速发展,开发基于数据的新型应用已经成为高校信息化建设的一个……查看详情发布时间:2019.11.22来源:CSDN浏览量:293次
-
数据都成为生产要素了?数据该如何治理?
先说说数据,其实现在说的数据和过去说的数据相比差别非常大,现在所说的数据不是一个静态文档,它是流动的数据,碎片化的数据,以各种各样的形式……查看详情发布时间:2020.11.23来源:知乎浏览量:127次
-
数据要素跑步入场,如何构建大数据治理体系?
通俗来说,数据治理就是预防、诊断和治疗与数据有关的一切“病症”。亿信华辰智能数据治理平台——“睿治”就是根治病症的良药。……查看详情发布时间:2021.05.13来源:亿信数据治理知识库浏览量:99次
-
谷歌的记录,gdpr罚款:避免这种命运与数据治理
通用数据保护条例(gdpr)第一次产生了真正的影响,因为谷歌的记录gdpr罚款主导了新闻周期。……查看详情发布时间:2019.02.13来源:亿信华辰浏览量:78次
-
数据标准管理工具最全介绍:背景、功能和案例都在这!
数据标准管理工具作为企业开展数据管控的抓手,需要把数据管理制度办法中建立的各项工作流在信息化系统中实现,避免线下流程,这就需要工具能支持……查看详情发布时间:2021.08.03来源:亿信数据治理知识库浏览量:619次
-
大数据时代传统工业企业的转型之路
基于互联网与大数据的企业商业模式创新,使得传统的生产、流通和消费等环节呈现出前所未有的“信息化”、“扁平化”和“无界化”。借助于大数据的……查看详情发布时间:2019.03.27来源:亿信华辰浏览量:63次
-
十年经验总结:企业物料主数据建设方案
目前很多企业已建立ERP系统,关联到整个企业运营的物料数据仍然存在“一物多码”、“描述不规范”等数据质量问题,这会对企业数据流通共享和经……查看详情发布时间:2021.05.21来源:亿信数据治理知识库浏览量:213次