立即扫码
享受一对一服务

发布时间:2019.03.12来源:亿信华辰浏览量:107次标签:数据治理
数据分类在收集、处理和应用数据过程中非常重要。数据的分类方式很多,每种方式都有特别的作用。数据工作中不同角色往往需要理解和掌握不同的分类方式,以便更好地组织、管理、分析和应用数据。
比如,数据平台架构师必须理解每个组件适合处理什么类型的数据,数据仓库工程师需要根据数据类型采取适合的数据清洗方法,数据分析人员必须知道数据的组织结构才能找到想要的数据。
下面将逐个介绍各种常见分类方式,并简单介绍每种分类的使用场景,以及对每个角色的重要程度。
(1)从字段类型上:文本类(string、char、text等)、数值类(int、float、number等)、时间类(data、timestamp等)
这种分类方式是最基本的,和很多场景有关。其一在系统设计时,需要确定每个字段的类型,以便设计数据库结构。其二,在数据清洗时,文本类数据往往很难清洗,而且很多文本类数据也没有清洗的必要,比如备注或客户评论。数值类和时间类数据是清洗的重点,这类字段在业务上一般都有明确的取值范围,比如年龄必须大于0。对于不合法的取值,通常用默认值填充。其三,在建立维度模型时,数值类中的编码型字段和时间类字段通常作为维度,数值类中的量化属性作为度量。
该分类对每种角色的重要程度:
(2)从数据结构上:结构化数据、半结构化数据、非结构化数据
这种分类方式近几年特别重要,相关的场景包括:其一,结构化数据是传统数据的主体,而半结构化和非结构化数据是大数据的主体。后者的增长速度比前者快很多,大数据的量这么大,主要是因为半结构化和非结构化数据的增长速度太快。其二,在数据平台设计时,结构化数据用传统的关系数据库便可高效处理,而半结构化和非结构化数据必须用Hadoop等大数据平台。其三,在数据分析和挖掘时,不少工具都要求输入结构化数据,因此必须把半结构化数据先转换成结构化数据。
该分类对每种角色的重要程度:
(3)从描述事物的角度:状态类数据、事件类数据、混合类数据
这种分类方式在数据仓库建模是特别重要。数据仓库需要保存各种历史数据,不同类型的历史数据保存方式差别很大。状态类数据保存历史的方式一般有两种:存储快照或者SCD方式。事件类数据一旦发生就已经是历史了,只需直接存储或者按时间分区存储。混合类数据保存历史比较复杂,可以把变化的字段分离出来,按状态类数据保存,剩下不变的则按事件类数据保存,使用时再把两者合并。另一个相关场景就客户画像,客户画像通常用状态类数据,对于和客户相关的事件类数据和混合类数据,也会转换成和状态类数据相同的形态。
该分类对每种角色的重要程度:
(4)从数据处理的角度:原始数据、衍生数据
这种分类方式主要用在管理数据上,对原始数据的管理和衍生数据的管理有一些差别。原始数据通常只要保留一份,衍生数据却不同,管理形式比较灵活,只要有利于提高数据分析和挖掘效率,产生更大的数据价值,任何形式都可以尝试。比如为每个业务条线定制个性化数据集市,提高每个业务条线的数据分析效率,虽然不同集市存在大量冗余的数据,但只要能大幅提高分析效率,用空间换时间也未尝不可。
该分类对每种角色的重要程度:
(5)从数据粒度上:明细数据、汇总数据
这种分类方式的相关场景有两种,一种是在数据仓库设计时,如何对数据进行汇总,按什么方式进行汇总,才能达到使用效率和汇总成本的平衡。另一种是数据分析人员在分析数据时,在明细数据、各种汇总数据之间选择合适的数据,以提高分析效率。
该分类对每种角色的重要程度:
(6)从更新方式上:批量数据、实时数据
这种分类方式也非常重要,目前有越来越多系统采取该方式提供数据。这对数据处理、数据分析和数据应用产生了巨大的影响。一方面能为业务提供近乎实时的数据和报表支持,实现高时效的业务场景。另一方面也极大地增加了数据架构、数据分析和应用的技术难度。
该分类对每种角色的重要程度:
发布时间:2019.11.15来源:知乎浏览量:142次
发布时间:2019.01.07来源:亿信华辰浏览量:99次
发布时间:2022.03.08来源:小亿浏览量:130次
发布时间:2019.02.28来源:亿信华辰浏览量:134次
发布时间:2019.09.23来源:知乎浏览量:128次
发布时间:2020.08.11来源:知乎浏览量:108次
发布时间:2021.04.09来源:亿信数据治理研究院浏览量:1092次
发布时间:2019.08.15来源:浏览量:90次
发布时间:2018.11.20来源:数据治理浏览量:105次
发布时间:2019.08.02来源:知乎浏览量:116次
人工
客服
预约
演示
您好,商务咨询请联系
400咨询:4000011866
咨询热线:137-0121-6791
技术
支持
您好,技术支持请联系
QQ:400-0011-866
(工作日9:00-18:00)