大数据是如何被采集及应用的

发布时间:2019.01.11来源:亿信华辰浏览量:99次标签:数据治理

尽管“大数据”一词近年来屡遭热捧,但很多人都还不知道什么是大数据,更不知道大数据有什么用。这两年,发现“大数据”这个词出现的越来越频繁了,不仅企业,连国家都在部署大数据战略,但是还是没搞懂大数据到底是什么,直到有一天我发现不管我在网上搜索什么,页面都会跳出我要搜索的相关产品或关联事物。

所谓大数据,就是算法!它能够“算”出我们“心中所想”。

那么问题来了,大数据技术是如何采集到我们的信息的呢?

数据采集,又称数据获取,是利用一种装置,从系统外部采集数据并输入到系统内部的一个接口。在互联网行业快速发展的今天,数据采集已经被广泛应用于互联网及分布式领域,比如摄像头,麦克风,都是数据采集工具。

数据采集系统整合了信号、传感器、激励器、信号调理、数据采集设备和应用软件。在数据大爆炸的互联网时代,数据的类型也是复杂多样的,包括结构化数据、半结构化数据、非结构化数据。结构化最常见,就是具有模式的数据。非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。大数据采集,是大数据分析的入口,所以是相当重要的一个环节。

我们首先来了解一下数据采集的三大要点:

一、数据采集的三大要点

(1)全面性

数据量足够具有分析价值、数据面足够支撑分析需求。

比如对于“查看商品详情”这一行为,需要采集用户触发时的环境信息、会话、以及背后的用户id,最后需要统计这一行为在某一时段触发的人数、次数、人均次数、活跃比等。

(2)多维性

数据更重要的是能满足分析需求。灵活、快速自定义数据的多种属性和不同类型,从而满足不同的分析目标。

比如“查看商品详情”这一行为,通过埋点,我们才能知道用户查看的商品是什么、价格、类型、商品id等多个属性。从而知道用户看过哪些商品、什么类型的商品被查看的多、某一个商品被查看了多少次。而不仅仅是知道用户进入了商品详情页。

(3)高效性

高效性包含技术执行的高效性、团队内部成员协同的高效性以及数据分析需求和目标实现的高效性。也就是说采集数据一定要明确采集目的,带着问题搜集信息,使信息采集更高效、更有针对性。此外,还要考虑数据的及时性。

不同应用领域的大数据其特点、数据量、用户群体均不相同。不同领域根据数据源的物理性质及数据分析的目标采取不同的数据采集方法。

那么,接下来我们再来了解一下常用的数据采集的方法。

 

常用的数据采集方法归结为以下三类:传感器、日志文件、网络爬虫。

(1)传感器

传感器通常用于测量物理变量,一般包括声音、温湿度、距离、电流等,将测量值转化为数字信号,传送到数据采集点,让物体有了触觉、味觉和嗅觉等感官,让物体慢慢变得活了起来。

(2)系统日志采集方法

日志文件数据一般由数据源系统产生,用于记录数据源的执行的各种操作活动,比如网络监控的流量管理、金融应用的股票记账和 web 服务器记录的用户访问行为。

很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。

(3)Web 爬虫

网络爬虫是指为搜索引擎下载并存储网页的程序,它是搜索引擎和 web 缓存的主要的数据采集方式。通过网络爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。

此外,对于企业生产经营数据上的客户数据,财务数据等保密性要求较高的数据,可以通过与数据技术服务商合作,使用特定系统接口等相关方式采集数据。比如八度云计算的数企BDSaaS,无论是数据采集技术、BI数据分析,还是数据的安全性和保密性,都做的很好。

数据的采集是挖掘数据价值的第一步,当数据量越来越大时,可提取出来的有用数据必然也就更多。只要善用数据化处理平台,便能够保证数据分析结果的有效性,助力企业实现数据驱动。


(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 数据治理,更依赖人治还是自治?

    数据治理,更依赖人治还是自治?

    数据治理“自治”包含两层含义:自动化治理和自助化治理。数据中台,是能力的下沉,数据处理能力下沉为加工平台,数据处理结果下沉为数据资产。那……查看详情

    发布时间:2019.11.18来源:知乎浏览量:118次

  • 怎样避免数据治理里面的坑?

    怎样避免数据治理里面的坑?

    数据治理是一项长期而繁杂的工作,很多时候大家都为如何做好数据治理而感到困惑,甚至很多时候对此失去了信心。怎么避免数据治理这些问题?……查看详情

    发布时间:2018.12.10来源:CSDN浏览量:121次

  • 6个实施数据治理的最佳实践方法

    6个实施数据治理的最佳实践方法

    在寻找数据治理最佳实施方法时,您可以从已有的各种流程和模板工作的人那里学到很多东西。尽管每个企业都不同,您将需要根据流程调整数据治理实践……查看详情

    发布时间:2021.07.28来源:亿信数据治理知识库浏览量:175次

  • 治理和管理

    治理和管理

    以问责制为重点的数据管理定义是“确保数据相关工作根据通过治理建立的政策和实践来执行的一系列活动。”……查看详情

    发布时间:2019.03.18来源:亿信华辰浏览量:117次

  • 重新思考数据治理

    重新思考数据治理

    随着数据和分析技术的变化,它们带来了新的数据治理挑战。当然,数据治理有各种定义,具体取决于您询问的对象。出于本文的目的,我们将其定义为确……查看详情

    发布时间:2018.11.26来源:数据治理浏览量:137次

  • 国内数据治理有何新动向?

    国内数据治理有何新动向?

    大数据时代,大数据技术在飞速的发展,逐渐的,大数据融入了各行各业,并且深受各大企业的喜欢,为了让各个企业的数据资产得到充分的利用,数据治……查看详情

    发布时间:2019.09.23来源:知乎浏览量:131次

  • 提升数据治理能力,构筑共治共享行业新生态

    提升数据治理能力,构筑共治共享行业新生态

    夯实数据治理之基,构筑良好的银行业数字化生态,数据治理构建开放的金融新生态,数据治理数据已成为银行业未来致胜的核心“资产”和竞争力。……查看详情

    发布时间:2020.01.03来源:知乎浏览量:189次

  • 数据治理过程中核心数据界定怎么破?

    数据治理过程中核心数据界定怎么破?

    数据治理过程中,在我们费了九牛二虎之力盘点出企业当前数据资产的家当,形成了数据资产的清单后,同时也会列明这个业务域的核心数据实体,这就碰……查看详情

    发布时间:2019.08.08来源:CSDN浏览量:102次

  • 数据治理与数据管理:有什么区别?

    数据治理与数据管理:有什么区别?

    如果今天有任何定义成功企业的东西,那就是公司数据的成功理解,使用和策略。了解您的数据并确定如何实施它会带来一系列问题,包括用户和利益相关……查看详情

    发布时间:2018.11.13来源:克里希基德浏览量:111次

  • 数据太多、太乱、太差?你需要这样一套数据治理工具

    数据太多、太乱、太差?你需要这样一套数据治理工具

    为了规范数据处理过程,凸显数据业务价值,需对数据进行综合管理,构建标准化、流程化、自动化、一体化的数据治理体系,确保数据架构规划合理、数……查看详情

    发布时间:2021.07.16来源:亿信数据治理知识库浏览量:154次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议