数据整理——大数据治理的关键技术

发布时间:2019.11.21来源:CSDN浏览量:170次标签:数据治理

数据是政府、企业和机构的重要资源。数据治理关注数据资源有效利用的众多方面,如数据资产确权、数据管理、数据开放共享、数据隐私保护等。从数据管理的角度,探讨了数据治理中的一项关键技术:数据整理。介绍了以数据拥有者和直接使用者(行业用户)为核心的数据整理的关键技术,包括数据结构化处理、数据质量评估及数据清洗、数据规范化、数据融合与摘取、数据整理的发布共享等。最后,针对加强数据整理方面的研究提出了一些思考。

大数据作为一种资源,在政府、大型企业和机构中发挥着越来越重要的作用。随着大数据应用的不断推进,与数据资源的价值提炼、保值和增值密切相关的大数据治理越来越引起人们的重视。大数据治理是一项复杂的工程,它需要在国家、行业、企业等多个层面上开展体系化的建设,技术上包含数据资产确权、数据管理、数据开放共享、数据隐私保护等诸多方面。这些技术面临的挑战多、难度大,很多方面还没有形成被广泛认可的系统化的解决方案。本文从数据管理这一关键环节出发,探讨其中的关键支撑技术:数据整理。

数据整理也叫数据准备,是在挖掘提炼数据价值的过程中进行的前期的数据预处理工作。它看似不足轻重,实则非常重要。有调查研究表明,很多大数据分析任务80%以上的工作花费在数据整理上,这给数据分析带来了巨大的人力成本。很多分析设想因为承担不起前期的数据整理工作而最终被放弃。更重要的是,由于缺少系统性和理论性的支撑,数据整理的质量千差万别,这给数据分析的结果带来了很大的不确定性,大大影响了大数据价值的挖掘与提炼。因此,人们很有必要重视数据整理的研究工作,它是整个数据治理环节中一项重要的基础性工作,但是这项工作在学术界和企业界并没有得到应有的重视。



数据整理的核心技术

1.1 数据的结构化处理
很多数据模型和算法是构建在结构化数据基础上的,多源异构数据要更好地与其他数据集融合,结构化处理是必不可少的过程。数据结构化处理首先要对原始数据进行解析,提取出需要的信息,再进一步将其转换成结构化数据。很多非结构化数据、Web数据是以文本形式存在的,需要使用信息抽取技术识别文本中的实体、属性、关系等信息。也有很多数据采用的是结构化强一些的数据模型,如JSO格式,这类数据相对关系型数据更灵活,在结构化转换过程中也需要一些技术上的处理。结构化处理的主要输出形式是二维表或者图数据,它需要用户确定数据在转换过程中采用的规则。

1.2 数据质量评估与数据清洗
结构化处理主要是数据表达形式上的转换,数据结构化之后并不意味着能够直接使用。处理后的数据还要进行质量评估,如果发现数据中存在问题,则采取进一步的数据清洗措施。这个过程称作数据质量评估。一些简单的数据质量问题可以利用自动化的算法发现,因为数据质量问题的多样性和不可预测性,数据可视化技术成为数据质量评估的关键技术。借助可视化技术,对数据语义非常了解的业务人员更容易发现数据存在的质量问题(如缺失、不一致、异常等)。伴随着数据质量问题的发现,用户可以定义一些数据清洗规则,批量化地处理数据中存在的质量问题,提高数据清洗的效率。在数据库研究领域,也有人借助众包的思路提升数据清洗的效率。这种做法也是基于用户在数据清洗过程中发挥的重要作用进行的。在数据清洗过程中,需要多轮次的人机交互,系统的交互界面和交互方式对于数据清洗算法的有效性尤为重要。

1.3 数据规范化
数据清洗还有一项重要的内容是数据规范化,这也是数据准备中常见的问题。规范化有简单的底层数据层面的,如数据类型转换、单位变换、格式表换等,也有较为复杂的数据项规范化处理,如电话号码、邮编、地址等。这类问题的主要成因是自然语言表达上的差异性会造成同一实体存在多种表达形式。比较典型的例子是地址,人们需要对其进行规范化处理,以提升数据的质量。地址的规范化面临的一个比较大的挑战就是粒度的选取,同一个地址可以用不同粒度进行表达。数据的规范化处理需要根据应用的需求特点,确定数据粒度和表达方式。地址规范化处理背后的问题是实体链指问题,即把同一实体的不同表达形式(不同名字)映射到同一个实体名字上,消除实体表达的语义鸿沟,进而通过关联在数据集中不同地方出现的相同语义的实体,达到数据融合的目的。

睿治数据治理平台是亿信华辰软件有限责任公司完全自主研发的一站式综合数据治理整体解决方案,是一款面向全用户角色的、智能的、敏捷的数据全生命周期管理应用平台。睿治平台摆脱了传统的一个问题一个工具的局限性,实现了数据治理场景全覆盖,九大核心模块:元数据、数据标准、数据质量、主数据、数据资产、数据安全、数据交换、数据处理、数据生命周期等,所有模块可自由组合,并支持本地或云上使用,全面满足客户各类治理需求。


亿信睿治作为国内少有的覆盖数据全生命周期的数据治理平台,全界面操作,“零”表达式治理,极高的易用性,可高效便捷完成数据从创建到消亡的全过程的监控和治理。一站式数据统一管理,保证了企业的业务数据在采集、汇总、转换、存储、应用整个过程中的完整性、准确性、一致性和时效性,从而帮助客户建立起符合自身特征的数据架构和数据治理体系。


亿信睿治平台具备极强的通用性,各模块功能可直接在各行业实施治理,解决常见数据问题。目前已深入服务了金融、制造、地产、电力、政务、卫生等多个行业,并正在高速拓展中。

数据整理需要研究的工作还有很多。如何开展有针对性的研究工作,并系统化地集成各方面的相关研究工作,形成数据整理方面整体上的研究和应用影响力?投入系统化的数据准备工具将更好地应用在实际场景中。这或许是一条较为可行的技术路线。
(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 数据治理,人工智能和医疗保健:令人兴奋的健康新世界

    数据治理,人工智能和医疗保健:令人兴奋的健康新世界

    随着AI变得越来越普遍,对数据治理的需求也在增加。这是一个由政府确定的问题,因为它最近宣布了一个监督大量数据集的道德小组。2017年1月……查看详情

    发布时间:2019.03.12来源:亿信华辰浏览量:67次

  • 数据科学趋势在2019年

    数据科学趋势在2019年

    在谈到2019年要关注的主要数据科学趋势时,Kaggle的联合创始人兼首席执行官Anthony Goldbloom 预测,很快数据中心将……查看详情

    发布时间:2019.01.04来源:数据治理浏览量:71次

  • 数据管理与数据治理的区别

    数据管理与数据治理的区别

    当我们谈数据资产管理时,我们究竟在谈什么?就目前而言,我们谈论得最多的非数据管理和数据治理这两个概念莫属。但是对于这两个概念,两者的准确……查看详情

    发布时间:2019.11.22来源:知乎浏览量:83次

  • 企业如何开展数据治理项目

    企业如何开展数据治理项目

    从大的阶段来看,数据治理主要分为存量数据“由乱到治”的阶段,以及增量数据严格按照规章制度实施确保“行不逾矩”的运营阶段。在“由乱到治”的……查看详情

    发布时间:2020.06.30来源:知乎浏览量:83次

  • 为什么你应该有一个数据治理策略

    为什么你应该有一个数据治理策略

    数据治理愈来愈受市场重视,那么做好数据治理就应该展开相关的策略。……查看详情

    发布时间:2018.12.26来源:亿信华辰浏览量:108次

  • 智与理的结合:当数据治理遇上人工智能

    智与理的结合:当数据治理遇上人工智能

    近日,中国移动研究院发布文章,解说了数据治理和人工智能两者之间各自发展历程,论证了两者在结构功能上的相互作用,阐明了两者共同发展的前……查看详情

    发布时间:2018.09.18来源:中国大数据产业观察网浏览量:155次

  • 2019—开启你的数据治理道路

    2019—开启你的数据治理道路

    如今,数字系统正在生产越来越多具有公认价值的数据,数据治理正变得越来越受欢迎和必要。然而,并非所有数据都被视为相同。……查看详情

    发布时间:2019.06.28来源:知乎浏览量:103次

  • 数据在数字化转型时代的作用

    数据在数字化转型时代的作用

    说今天的商业环境变得极具竞争力可能是轻描淡写的,那些没有不断重塑业务的公司 - 以核心数据 - 最终会在市场中断的同时观望。数据技术,科……查看详情

    发布时间:2019.03.12来源:亿信华辰浏览量:89次

  • 治理:如何做对

    治理:如何做对

    如果您在任何规模的组织中工作,您可能不得不与某种治理委员会打交道。这些都是出了名的狡猾。继续阅读,看看如何避免常见的陷阱。……查看详情

    发布时间:2019.03.11来源:亿信华辰浏览量:80次

  • 不同部门的数据分析需求,如何满足?

    不同部门的数据分析需求,如何满足?

    让数据驱动落地企业,要先明确商业目的是什么,找到方向才能更好地指导业务。在互联网金融企业中,用户与交易额是各部门工作开展的核心所在。互金……查看详情

    发布时间:2019.01.27来源:亿信华辰浏览量:88次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议