大数据是如何被采集及应用的

发布时间:2019.01.11来源:亿信华辰浏览量:128次标签:数据治理

尽管“大数据”一词近年来屡遭热捧,但很多人都还不知道什么是大数据,更不知道大数据有什么用。这两年,发现“大数据”这个词出现的越来越频繁了,不仅企业,连国家都在部署大数据战略,但是还是没搞懂大数据到底是什么,直到有一天我发现不管我在网上搜索什么,页面都会跳出我要搜索的相关产品或关联事物。

所谓大数据,就是算法!它能够“算”出我们“心中所想”。

那么问题来了,大数据技术是如何采集到我们的信息的呢?

数据采集,又称数据获取,是利用一种装置,从系统外部采集数据并输入到系统内部的一个接口。在互联网行业快速发展的今天,数据采集已经被广泛应用于互联网及分布式领域,比如摄像头,麦克风,都是数据采集工具。

数据采集系统整合了信号、传感器、激励器、信号调理、数据采集设备和应用软件。在数据大爆炸的互联网时代,数据的类型也是复杂多样的,包括结构化数据、半结构化数据、非结构化数据。结构化最常见,就是具有模式的数据。非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。大数据采集,是大数据分析的入口,所以是相当重要的一个环节。

我们首先来了解一下数据采集的三大要点:

一、数据采集的三大要点

(1)全面性

数据量足够具有分析价值、数据面足够支撑分析需求。

比如对于“查看商品详情”这一行为,需要采集用户触发时的环境信息、会话、以及背后的用户id,最后需要统计这一行为在某一时段触发的人数、次数、人均次数、活跃比等。

(2)多维性

数据更重要的是能满足分析需求。灵活、快速自定义数据的多种属性和不同类型,从而满足不同的分析目标。

比如“查看商品详情”这一行为,通过埋点,我们才能知道用户查看的商品是什么、价格、类型、商品id等多个属性。从而知道用户看过哪些商品、什么类型的商品被查看的多、某一个商品被查看了多少次。而不仅仅是知道用户进入了商品详情页。

(3)高效性

高效性包含技术执行的高效性、团队内部成员协同的高效性以及数据分析需求和目标实现的高效性。也就是说采集数据一定要明确采集目的,带着问题搜集信息,使信息采集更高效、更有针对性。此外,还要考虑数据的及时性。

不同应用领域的大数据其特点、数据量、用户群体均不相同。不同领域根据数据源的物理性质及数据分析的目标采取不同的数据采集方法。

那么,接下来我们再来了解一下常用的数据采集的方法。

 

常用的数据采集方法归结为以下三类:传感器、日志文件、网络爬虫。

(1)传感器

传感器通常用于测量物理变量,一般包括声音、温湿度、距离、电流等,将测量值转化为数字信号,传送到数据采集点,让物体有了触觉、味觉和嗅觉等感官,让物体慢慢变得活了起来。

(2)系统日志采集方法

日志文件数据一般由数据源系统产生,用于记录数据源的执行的各种操作活动,比如网络监控的流量管理、金融应用的股票记账和 web 服务器记录的用户访问行为。

很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。

(3)Web 爬虫

网络爬虫是指为搜索引擎下载并存储网页的程序,它是搜索引擎和 web 缓存的主要的数据采集方式。通过网络爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。

此外,对于企业生产经营数据上的客户数据,财务数据等保密性要求较高的数据,可以通过与数据技术服务商合作,使用特定系统接口等相关方式采集数据。比如八度云计算的数企BDSaaS,无论是数据采集技术、BI数据分析,还是数据的安全性和保密性,都做的很好。

数据的采集是挖掘数据价值的第一步,当数据量越来越大时,可提取出来的有用数据必然也就更多。只要善用数据化处理平台,便能够保证数据分析结果的有效性,助力企业实现数据驱动。


(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 大型传统企业如何利用数据管理系统把握好业务和数据的关系,逐步实现智能化转型?

    大型传统企业如何利用数据管理系统把握好业务和数据的关系,逐步实现智能化转型?

    关于“数据治理”的定义各大研究学派给出的都概念不尽相同,但看了这么多不同的说法小亿翻译成人话,其实就是要搞清楚:数据治理治什么?谁来治?……查看详情

    发布时间:2020.08.31来源:亿信华辰浏览量:128次

  • 数据生命周期管理工作包括哪些方面

    数据生命周期管理工作包括哪些方面

    睿治数据治理工具--数据生命周期管理平台支持数据资产全生命周期管理,根据存储周期自动计算每行数据的存储时限,并根据存储时限进行数据自动归……查看详情

    发布时间:2021.09.02来源:亿信华辰数据治理知识库浏览量:660次

  • 如何构建我国的数据治理体系

    如何构建我国的数据治理体系

    公司应该考虑它是否有数据治理政策,如果有,是否全面有效。数据治理政策已成为监管期望,作为核心质量体系政策之一。企业应根据对流程的理解和技……查看详情

    发布时间:2019.08.16来源:知乎浏览量:204次

  • 读懂工业大数据 这篇文章不得不看

    读懂工业大数据 这篇文章不得不看

    工业大数据是互联网、大数据和工业产业结合的产物,是中国制造2025、工业互联网、工业4.0等国家战略在企业的落脚点。……查看详情

    发布时间:2019.03.27来源:亿信华辰浏览量:131次

  • 通俗讲透什么是数据资产管理

    通俗讲透什么是数据资产管理

    作为一个初入数据治理这行的小白,刚听到数据资产管理的时候也是一脸懵,资产编目?数据生命周期?归档?概念有时候实在有些抽象,再加上数据本来……查看详情

    发布时间:2020.08.14来源:知乎浏览量:151次

  • 浅谈数据治理的发展趋势

    浅谈数据治理的发展趋势

    随着大数据技术的飞速发展,大数据已经融入到了各行各业,为了能让各企业的数据资产得到充分的利用,数据治理非常重要,如今数据治理已经逐渐成为……查看详情

    发布时间:2019.07.17来源:知乎浏览量:125次

  • 从数据中台的演进之路看未来发展,你需要是中台吗

    从数据中台的演进之路看未来发展,你需要是中台吗

    随着数据中台越来越火,很多企业纷纷建起了自己的数据中台,数据中台一下子火爆起来,越来越多的人开始了解中台,很多人就会存在疑问,数据中台到……查看详情

    发布时间:2020.08.26来源:小亿浏览量:132次

  • 医疗保健委员会治理的最佳实践是什么?

    医疗保健委员会治理的最佳实践是什么?

    治理这个词源于拉丁语gubernare,意思是指导或统治。医疗保健委员会的治理正在发展,因为技术使医院和其他医疗机构能够访问越来越多的数……查看详情

    发布时间:2019.03.14来源:亿信华辰浏览量:173次

  • 如何选择数据治理工具

    如何选择数据治理工具

    有许多场景需要数据治理工具。在严格的行业法规下运营,利用分析软件和/或定期整合关键主题领域的数据的企业将发现自己正在寻找数据治理工具来帮……查看详情

    发布时间:2019.07.04来源:知乎浏览量:135次

  • 医疗保健中数据治理的7个基本实践

    医疗保健中数据治理的7个基本实践

    数据现在是任何组织中最有价值的资产之一,尤其是医疗保健,因为我们正在转向更具分析性的行业。数据现在是任何组织中最持久的资产,超过设施,设……查看详情

    发布时间:2018.11.16来源:戴尔桑德斯浏览量:134次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议