大数据治理需要具备哪些能力和关键技术?

发布时间:2019.11.22来源:CSDN浏览量:194次标签:数据治理

在企业数据建设过程中,大数据治理受到越来越多的重视。从企业数据资产管理和提升数据质量,到自服务和智能化的数据应用,大数据治理的内容在不断发展和完善,其落地实施的过程中会遇到各种各样的难题和挑战。本篇文章通过分析大数据治理建设中的沟沟坎坎,总结出了大数据治理需要具备的能力和关键技术。

一、困难重重却充满光明的大数据治理发展之路
1、传统数据治理一直无法逃脱的魔咒
大数据治理从建设内容和实施目标上可以划分成不同的阶段,每个阶段完成不同的任务,随着阶段的递进,建设内容逐步加深,不同的企业切入点和诉求也各不相同。大致分为以下几个阶段:

摸家底阶段
内容:企业元数据梳理和采集
目标:构建企业数据资产库

建体系
内容:建立企业标准和质量提升体系
目标:提升数据质量

促应用
内容:自服务通道、构建企业知识图谱
目标:数据智能应用

然而,大数据治理建设之路并不是一帆风顺的,甚至可以说充满了各种问题和困难,如何管理企业级的数据资产、如何让业务积极参与到数据建设中来、如何降低数据治理的落地难度等一系列问题,一直困扰着数据治理的发展,传统数据治理的问题主要体现在以下几个方面

管理范围窄
要做数据治理首先要知道有哪些数据,传统的数据治理往往只管理了数据领域,很少关注业务、管理和开发相关的数据资产,数据管理范围比较窄,而且,受限于技术实现,即使在数据领域的数据资产也很难做到精确管理;

业务难结合
业务元数据的广泛缺失,导致业务人员无法使用技术性的元数据系统,元数据缺乏业务用户,使用者少;

应用场景缺
元数据被当成单独的系统,而不是广泛的技术基础,导致只关心元数据本身的应用场景;
技术不完善
在技术层面存储缺乏扩展性,采集自动程度不高,管理实时性不高。

2、自服务大数据治理是解决问题之道
自服务的大数据治理平台具备管理、开发、共享、使用等能力,通过自动、自助、智能化的大数据治理,能够实现对数据的找、供、用、治,从而一站式解决传统数据治理在大数据时代的各种难题,具体涉及到以下几个方面。    

建好数据管理体系,快速识别数据
自服务大数据治理平台可以实现有数据可管理。现在的企业数据资产繁杂众多,特别是建设大数据平台的企业,数据的类型、分布、实现技术、所属部门等都很繁杂,通过手工一点点梳理是不现实的,如何低成本、快速有效地将数据梳理和管理起来?这是做大数据治理遇到的第一个坎。

自服务大数据治理平台可以通过自动化手段,自动识别企业数据资产并标明数据方位和属性,建立业务能理解的数据服务目录。

建立数据治理体系,监控并快速发现问题

自服务大数据治理平台可以保障企业数据资产的质量。企业内数据环境复杂,很容易出现数据不一致、数据不及时、数据缺失等一系列问题,如何识别并快速定位数据问题?特别是针对海量数据,如何在不影响性能情况下找出问题数据?这是做大数据治理遇到的第二个坎。

通过自服务大数据治理平台建立和支撑起基于数据指标、质量检核、问题发现和监控的完善数据治理体系,从事前、事中和事后等各个环节规避、发现和解决数据问题,将能保证数据应用无后顾之忧。

二、大数据治理技术需要不断革新
数据治理的目标是把数据管起来、用起来、保证数据质量,这些目标离不开各种技术的支持,这些技术包括元数据自动采集和关联、数据质量的探查和提升、数据的自助服务和智能应用等。

1、管起来:数据资产的自动化采集、存储技术要实现大数据治理的资产管理,需要做足三个方面的工作:
采集:指从各种工具中,把各种类型的元数据采集进来。
存储:采集元数据之后需要相应的存储策略来对元数据进行存储,这需要在不改变存储架构的情况下扩展元数据存储的类型;
管理和应用:在采集和存储完成后,对已经存储的元数据进行管理和应用。

第一,针对数据资产的存储,模型体系规范为元数据管理提供了基础,通过模型管理可以实现统一稳定的元数据存储,统一的标准和规范能很好地解决通用性和扩展性。

传统数据资产管理采用CWM规范进行数据资产存储设计,该规范提供了一个描述相关数据信息元数据的基础框架,并为各种元数据之间的通信和共享提供了一套切实可行的标准。但是,随着元数据管理范围的不断扩大,CWM规范已经不能满足通用的元数据管理需求,针对微服务、业务等也需要一套规范支撑。MOF规范位于模型体系最底层,可以为元数据存储提供统一的管理理论基础。

第二,元数据管理第二个核心问题是解决各类元数据的采集,由于元数据类型多种多样,而且在不断增加,所以,如何以最小代价,快速纳入管理新类型元数据的能力,是元数据管理的核心。

采用可插拔的适配器方式实现元数据的采集是一个很好的选择。其中,数据采集适配器应支持各类数据源的采集,当有一个新的数据源需要接入的时候,只需按照规范快速开发一套针对性的适配器,就能实现新类型元数据的纳入管理。

第三,与人工相比,技术的最突出特点是速度快和精确。因此,如何通过技术手段精确地获取数据资产是关键,特别是元数据关系,一般都存在于模型设计工具、ETL工具,甚至开发的SQL脚本中,因此需要通过工具组件解析(接口、数据库)、SQL语法解析等手段完成关系的获取和建立。准确解析后的关系,还需要通过直观的关系图展现出来。

2、有保障:数据质量探查和提升技术
通过大数据治理来提升数据质量的过程中,涉及到很多环节、工作和技术,其中包括:通过合理的技术找出数据问题并找到问题数据;从各个维度监控数据问题,并能通过最直观和快捷的方式反馈给相关责任人;实现问题发现、认责、处理、归档等数据问题的闭环解决流程等。中间主要涉及到以下两个方面:

第一,要想及时全面地找到问题数据,不仅要关注关键点,还要有合适的方法。数据最容易出现质量问题的地方就是数据集成(流动)点,例如:性别在单系统中,有1和0或者男和女表示都行,但是系统间集成时就会有问题。因此,解决数据质量的关键,就在于在集成点检查数据质量。另外,针对大数据量的数据质量检查,即要保证实时性,也要保证不影响业务系统的正常运行,因此在对特别大的数据量进行检查时,要采用抽样检查的方式。

第二,数据问题发现后,还要直观地将数据问题展现出来并及时通知相关人员。因此大数据治理平台应提供实时、全面的数据监控,实现多维度实时的数据资产信息展示:
从作业、模型、物理资源等各方面进行全面的数据资产盘点;
对数据及时性、问题数据量等方面的数据健康环境进行全面的预警。

3、用起来:自助化数据服务构建技术
大数据治理的最终目标是为最终用户提供数据,这需要快速找到数据,并快速建立数据交换的通道。
知识图谱是一种非常好用、直观的数据应用方式。人工智能的知识图谱构建,可以从以下步骤考虑:
基于企业元数据信息,通过自然语言处理、机器学习、模式识别等算法,以及业务规则过滤等方式,实现知识的提取;
以本体形式表示和存储知识,自动构建成起资产知识图谱;
通过知识图谱关系,利用智能搜索、关联查询等手段,为最终用户提供更加精确的数据。
基于元数据的自助数据服务开发,可以简单快速地建立数据通道。通过自助化的数据生产线,数据使用方(业务人员)大大减少了对开发人员依赖,80%以上的数据需求,都能通过自己进行整合开发,最终获取数据。让所有用数据的人能方便得到想要的数据。其中,提供所需数据的自助查询能力、自动生成数据服务、及时稳定的获得数据通道、保证数据安全是实现自助化的大数据生产线的四个关键点。
(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 了解当今数据驱动型企业的治理核心

    了解当今数据驱动型企业的治理核心

    数据治理不仅涉及风险管理。它是关于深入了解数据的核心,使组织中的每个人都能更轻松地使用和信任数据,从而获得业务优势。良好的数据治理系统不……查看详情

    发布时间:2019.02.28来源:亿信华辰浏览量:116次

  • 金融行业数据治理与安全防护解决方案

    金融行业数据治理与安全防护解决方案

    在金融业各类涉及商业秘密和敏感数据的信息在处理、共享和使用过程中面临违规越权使用或被用于非法用途等数据泄漏的安全风险。一方面,数据处理过……查看详情

    发布时间:2019.09.30来源:CSDN浏览量:125次

  • 数据治理的主战场,商业智能还是数据挖掘?

    数据治理的主战场,商业智能还是数据挖掘?

    数据治理这门学问,入手极易,精通极难。说说经验吧,数据治理强调两点,一是高层支持,二是各部门广泛参与。组织内数据治理各项工作的开展都要处……查看详情

    发布时间:2019.02.21来源:知乎浏览量:131次

  • 理解和证明数据治理2.0

    理解和证明数据治理2.0

    过去,证明数据治理的合理性是非常困难的。数据治理1.0的孤岛性质以及缺乏对增值的关注意味着买入率很低。……查看详情

    发布时间:2019.01.25来源:亿信华辰浏览量:163次

  • 2019年采用大数据发生重大变化的6个行业

    2019年采用大数据发生重大变化的6个行业

    如今,大数据的应用对几乎任何行业的发展都会产生积极的影响,而采用这项技术,一些行业比其他行业更有可能发生重大的变化。以下是采用大数据发生……查看详情

    发布时间:2019.02.14来源:亿信华辰浏览量:99次

  • 大数据时代 这样炼钢——亿信华辰

    大数据时代 这样炼钢——亿信华辰

    铁流滚滚,四溅迸射出绚丽的火花。经过1个多小时的高温淬炼,高达1500摄氏度的铁水从出铁口喷涌而出,像一条火龙沿着沟槽蜿蜒流动。……查看详情

    发布时间:2019.02.12来源:亿信华辰浏览量:156次

  • 企业如何快速启动数据治理项目呢?

    企业如何快速启动数据治理项目呢?

    企业在运营的过程中通常都会产生各种各样的数据问题,例如各部门数据不一致,导致汇总部门工作效率低,数据错误从而导致做出错误的判断等等,因此……查看详情

    发布时间:2019.07.29来源:头条浏览量:130次

  • 数据治理的坑,你踩过多少?

    数据治理的坑,你踩过多少?

    大数据时代,数据成为社会和组织的宝贵资产,像工业时代的石油和电力一样驱动万物,然而如果石油的杂质太多,电流的电压不稳,数据的价值岂不是大……查看详情

    发布时间:2020.06.29来源:CSDN浏览量:133次

  • 怎么做好数据管理——亿信华辰

    怎么做好数据管理——亿信华辰

    数据化管理是指将业务工作通过完善的基础统计报表体系、数据分析体系进行明确计量、科学分析、精准定性,以数据报表的形式进行记录、查询、汇报、……查看详情

    发布时间:2019.03.07来源:亿信华辰浏览量:113次

  • 智与理的结合:当数据治理遇上人工智能

    智与理的结合:当数据治理遇上人工智能

    近日,中国移动研究院发布文章,解说了数据治理和人工智能两者之间各自发展历程,论证了两者在结构功能上的相互作用,阐明了两者共同发展的前……查看详情

    发布时间:2018.09.18来源:中国大数据产业观察网浏览量:356次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议