数据整理——大数据治理的关键技术

发布时间:2019.11.21来源:CSDN浏览量:192次标签:数据治理

数据是政府、企业和机构的重要资源。数据治理关注数据资源有效利用的众多方面,如数据资产确权、数据管理、数据开放共享、数据隐私保护等。从数据管理的角度,探讨了数据治理中的一项关键技术:数据整理。介绍了以数据拥有者和直接使用者(行业用户)为核心的数据整理的关键技术,包括数据结构化处理、数据质量评估及数据清洗、数据规范化、数据融合与摘取、数据整理的发布共享等。最后,针对加强数据整理方面的研究提出了一些思考。

大数据作为一种资源,在政府、大型企业和机构中发挥着越来越重要的作用。随着大数据应用的不断推进,与数据资源的价值提炼、保值和增值密切相关的大数据治理越来越引起人们的重视。大数据治理是一项复杂的工程,它需要在国家、行业、企业等多个层面上开展体系化的建设,技术上包含数据资产确权、数据管理、数据开放共享、数据隐私保护等诸多方面。这些技术面临的挑战多、难度大,很多方面还没有形成被广泛认可的系统化的解决方案。本文从数据管理这一关键环节出发,探讨其中的关键支撑技术:数据整理。

数据整理也叫数据准备,是在挖掘提炼数据价值的过程中进行的前期的数据预处理工作。它看似不足轻重,实则非常重要。有调查研究表明,很多大数据分析任务80%以上的工作花费在数据整理上,这给数据分析带来了巨大的人力成本。很多分析设想因为承担不起前期的数据整理工作而最终被放弃。更重要的是,由于缺少系统性和理论性的支撑,数据整理的质量千差万别,这给数据分析的结果带来了很大的不确定性,大大影响了大数据价值的挖掘与提炼。因此,人们很有必要重视数据整理的研究工作,它是整个数据治理环节中一项重要的基础性工作,但是这项工作在学术界和企业界并没有得到应有的重视。



数据整理的核心技术

1.1 数据的结构化处理
很多数据模型和算法是构建在结构化数据基础上的,多源异构数据要更好地与其他数据集融合,结构化处理是必不可少的过程。数据结构化处理首先要对原始数据进行解析,提取出需要的信息,再进一步将其转换成结构化数据。很多非结构化数据、Web数据是以文本形式存在的,需要使用信息抽取技术识别文本中的实体、属性、关系等信息。也有很多数据采用的是结构化强一些的数据模型,如JSO格式,这类数据相对关系型数据更灵活,在结构化转换过程中也需要一些技术上的处理。结构化处理的主要输出形式是二维表或者图数据,它需要用户确定数据在转换过程中采用的规则。

1.2 数据质量评估与数据清洗
结构化处理主要是数据表达形式上的转换,数据结构化之后并不意味着能够直接使用。处理后的数据还要进行质量评估,如果发现数据中存在问题,则采取进一步的数据清洗措施。这个过程称作数据质量评估。一些简单的数据质量问题可以利用自动化的算法发现,因为数据质量问题的多样性和不可预测性,数据可视化技术成为数据质量评估的关键技术。借助可视化技术,对数据语义非常了解的业务人员更容易发现数据存在的质量问题(如缺失、不一致、异常等)。伴随着数据质量问题的发现,用户可以定义一些数据清洗规则,批量化地处理数据中存在的质量问题,提高数据清洗的效率。在数据库研究领域,也有人借助众包的思路提升数据清洗的效率。这种做法也是基于用户在数据清洗过程中发挥的重要作用进行的。在数据清洗过程中,需要多轮次的人机交互,系统的交互界面和交互方式对于数据清洗算法的有效性尤为重要。

1.3 数据规范化
数据清洗还有一项重要的内容是数据规范化,这也是数据准备中常见的问题。规范化有简单的底层数据层面的,如数据类型转换、单位变换、格式表换等,也有较为复杂的数据项规范化处理,如电话号码、邮编、地址等。这类问题的主要成因是自然语言表达上的差异性会造成同一实体存在多种表达形式。比较典型的例子是地址,人们需要对其进行规范化处理,以提升数据的质量。地址的规范化面临的一个比较大的挑战就是粒度的选取,同一个地址可以用不同粒度进行表达。数据的规范化处理需要根据应用的需求特点,确定数据粒度和表达方式。地址规范化处理背后的问题是实体链指问题,即把同一实体的不同表达形式(不同名字)映射到同一个实体名字上,消除实体表达的语义鸿沟,进而通过关联在数据集中不同地方出现的相同语义的实体,达到数据融合的目的。

睿治数据治理平台是亿信华辰软件有限责任公司完全自主研发的一站式综合数据治理整体解决方案,是一款面向全用户角色的、智能的、敏捷的数据全生命周期管理应用平台。睿治平台摆脱了传统的一个问题一个工具的局限性,实现了数据治理场景全覆盖,九大核心模块:元数据、数据标准、数据质量、主数据、数据资产、数据安全、数据交换、数据处理、数据生命周期等,所有模块可自由组合,并支持本地或云上使用,全面满足客户各类治理需求。


亿信睿治作为国内少有的覆盖数据全生命周期的数据治理平台,全界面操作,“零”表达式治理,极高的易用性,可高效便捷完成数据从创建到消亡的全过程的监控和治理。一站式数据统一管理,保证了企业的业务数据在采集、汇总、转换、存储、应用整个过程中的完整性、准确性、一致性和时效性,从而帮助客户建立起符合自身特征的数据架构和数据治理体系。


亿信睿治平台具备极强的通用性,各模块功能可直接在各行业实施治理,解决常见数据问题。目前已深入服务了金融、制造、地产、电力、政务、卫生等多个行业,并正在高速拓展中。

数据整理需要研究的工作还有很多。如何开展有针对性的研究工作,并系统化地集成各方面的相关研究工作,形成数据整理方面整体上的研究和应用影响力?投入系统化的数据准备工具将更好地应用在实际场景中。这或许是一条较为可行的技术路线。
(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 什么是数据工程师?高需求中的分析角色

    什么是数据工程师?高需求中的分析角色

    数据工程师是任何企业数据分析团队的重要成员,负责管理、优化、监督和监控整个组织内的数据检索、存储和分发。 ……查看详情

    发布时间:2019.01.15来源:亿信华辰浏览量:103次

  • 数据都成为生产要素了?数据该如何治理?

    数据都成为生产要素了?数据该如何治理?

    先说说数据,其实现在说的数据和过去说的数据相比差别非常大,现在所说的数据不是一个静态文档,它是流动的数据,碎片化的数据,以各种各样的形式……查看详情

    发布时间:2020.11.23来源:知乎浏览量:190次

  • 2021年16种最佳数据治理工具和软件

    2021年16种最佳数据治理工具和软件

    ​数据治理越来越被企业重视,在这样一个数据驱动经济增长的时代,数据治理正在成为一些企业或单位数字化转型的必经之路。下面,就来和大家简单介……查看详情

    发布时间:2021.05.25来源:亿信数据治理知识库浏览量:226次

  • 基于大数据的质量管理系统怎么选?

    基于大数据的质量管理系统怎么选?

    对于一个制造企业来说,生产是企业最大的动力,而生产质量也需要进行优化管理,一个好的质量管理会带给企业巨大的发展空间和利润价值。正因如此,……查看详情

    发布时间:2019.11.07来源:知乎浏览量:97次

  • 跨域数据交换平台解决方案

    跨域数据交换平台解决方案

    随着信息社会的不断发展,信息融合正逐步走向深化。业务系统如何跨越不同安全等级的网络域进行数据传输,是整合各类信息资源、降低各系统间信息壁……查看详情

    发布时间:2020.08.07来源:知乎浏览量:157次

  • 简述数据资产管理方案必须注意的6点

    简述数据资产管理方案必须注意的6点

    “数据资产管理”一词,在国内首次由DAMS(中国数据资产管理峰会)组委会正式提出。首届“中国数据资产……查看详情

    发布时间:2020.08.14来源:知乎浏览量:117次

  • 数据治理市场驱动因素和预测

    数据治理市场驱动因素和预测

    全球数据治理市场分散,主要参与者使用各种策略,如新产品发布,扩张,协议,合资企业,合作伙伴关系,收购等,以增加他们在这个市场的足迹,以便……查看详情

    发布时间:2019.07.11来源:知乎浏览量:109次

  • 一文搞懂数据质量问题及对应的解决办法

    一文搞懂数据质量问题及对应的解决办法

    通过数据分析、数据评估、数据清洗、数据监控、错误预警等内容,解决数据质量问题,使数据的质量得以改善,使其满足数据需求方对数据质量的规则要……查看详情

    发布时间:2019.11.05来源:知乎浏览量:704次

  • 强大的数据治理是机器学习成功的关键

    强大的数据治理是机器学习成功的关键

    人工智能和机器学习这两个术语通常被视为同一枚硬币的两面。尽管如此,虽然ML算法增强了AI功能,并使它们能够进行更多的尖端和智能计算,但还……查看详情

    发布时间:2019.01.17来源:数据治理浏览量:115次

  • 提高数据质量的方法

    提高数据质量的方法

    要想真正解决数据质量问题,应该从需求开始,企业往往在定义清楚业务需求后忽略对数据质量的控制,而只对已经产生的数据做检查,然后再将错误数据……查看详情

    发布时间:2019.11.15来源:知乎浏览量:124次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议