大数据是如何被采集及应用的

发布时间:2019.01.11来源:亿信华辰浏览量:46次标签:数据治理

尽管“大数据”一词近年来屡遭热捧,但很多人都还不知道什么是大数据,更不知道大数据有什么用。这两年,发现“大数据”这个词出现的越来越频繁了,不仅企业,连国家都在部署大数据战略,但是还是没搞懂大数据到底是什么,直到有一天我发现不管我在网上搜索什么,页面都会跳出我要搜索的相关产品或关联事物。

所谓大数据,就是算法!它能够“算”出我们“心中所想”。

那么问题来了,大数据技术是如何采集到我们的信息的呢?

数据采集,又称数据获取,是利用一种装置,从系统外部采集数据并输入到系统内部的一个接口。在互联网行业快速发展的今天,数据采集已经被广泛应用于互联网及分布式领域,比如摄像头,麦克风,都是数据采集工具。

数据采集系统整合了信号、传感器、激励器、信号调理、数据采集设备和应用软件。在数据大爆炸的互联网时代,数据的类型也是复杂多样的,包括结构化数据、半结构化数据、非结构化数据。结构化最常见,就是具有模式的数据。非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。大数据采集,是大数据分析的入口,所以是相当重要的一个环节。

我们首先来了解一下数据采集的三大要点:

一、数据采集的三大要点

(1)全面性

数据量足够具有分析价值、数据面足够支撑分析需求。

比如对于“查看商品详情”这一行为,需要采集用户触发时的环境信息、会话、以及背后的用户id,最后需要统计这一行为在某一时段触发的人数、次数、人均次数、活跃比等。

(2)多维性

数据更重要的是能满足分析需求。灵活、快速自定义数据的多种属性和不同类型,从而满足不同的分析目标。

比如“查看商品详情”这一行为,通过埋点,我们才能知道用户查看的商品是什么、价格、类型、商品id等多个属性。从而知道用户看过哪些商品、什么类型的商品被查看的多、某一个商品被查看了多少次。而不仅仅是知道用户进入了商品详情页。

(3)高效性

高效性包含技术执行的高效性、团队内部成员协同的高效性以及数据分析需求和目标实现的高效性。也就是说采集数据一定要明确采集目的,带着问题搜集信息,使信息采集更高效、更有针对性。此外,还要考虑数据的及时性。

不同应用领域的大数据其特点、数据量、用户群体均不相同。不同领域根据数据源的物理性质及数据分析的目标采取不同的数据采集方法。

那么,接下来我们再来了解一下常用的数据采集的方法。

 

常用的数据采集方法归结为以下三类:传感器、日志文件、网络爬虫。

(1)传感器

传感器通常用于测量物理变量,一般包括声音、温湿度、距离、电流等,将测量值转化为数字信号,传送到数据采集点,让物体有了触觉、味觉和嗅觉等感官,让物体慢慢变得活了起来。

(2)系统日志采集方法

日志文件数据一般由数据源系统产生,用于记录数据源的执行的各种操作活动,比如网络监控的流量管理、金融应用的股票记账和 web 服务器记录的用户访问行为。

很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。

(3)Web 爬虫

网络爬虫是指为搜索引擎下载并存储网页的程序,它是搜索引擎和 web 缓存的主要的数据采集方式。通过网络爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。

此外,对于企业生产经营数据上的客户数据,财务数据等保密性要求较高的数据,可以通过与数据技术服务商合作,使用特定系统接口等相关方式采集数据。比如八度云计算的数企BDSaaS,无论是数据采集技术、BI数据分析,还是数据的安全性和保密性,都做的很好。

数据的采集是挖掘数据价值的第一步,当数据量越来越大时,可提取出来的有用数据必然也就更多。只要善用数据化处理平台,便能够保证数据分析结果的有效性,助力企业实现数据驱动。


(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 医疗保健中数据治理的7个基本实践

    医疗保健中数据治理的7个基本实践

    数据现在是任何组织中最有价值的资产之一,尤其是医疗保健,因为我们正在转向更具分析性的行业。数据现在是任何组织中最持久的资产,超过设施,设……查看详情

    发布时间:2018.12.27来源:数据治理浏览量:78次

  • 数据治理准备的五大支柱:团队资源

    数据治理准备的五大支柱:团队资源

    Facebook丑闻突显了组织需要理解和应用数据治理准备的五大支柱。……查看详情

    发布时间:2019.01.24来源:亿信华辰浏览量:61次

  • 一套完事数据治理平台解决你数据太多、太乱、太杂的问题

    一套完事数据治理平台解决你数据太多、太乱、太杂的问题

    智能是基于数据的,而数据又是基于大量人工与工程努力的,所以人工智能还有相当一部分「人工」。数据收集需要人工确定数据源,或者手动写爬虫;数……查看详情

    发布时间:2019.10.25来源:知乎浏览量:142次

  • 数据治理新挑战:数据要素大规模流动

    数据治理新挑战:数据要素大规模流动

    “我们谈论大数据的时候在谈什么?”“数据生产要素、数据治理、隐私计算……这些都是关键词。”7月24日下午,2020年中国互联网大会“数据……查看详情

    发布时间:2020.07.31来源:知乎浏览量:87次

  • 企业主数据管理方案

    企业主数据管理方案

    主数据管理使得企业能够集中化管理数据,在分散的系统间保证主数据的一致性,改进数据合规性、快速部署新应用、充分了解客户、加速推出新产品的速……查看详情

    发布时间:2020.04.29来源:知乎浏览量:58次

  • 大型企业数据治理的现状和解决方案

    大型企业数据治理的现状和解决方案

    在大数据时代,数据治理是所有的拥有大量数据的公司的巨大的挑战。没有数据,企业缺乏用于做决策的数据的支持。可是有了越来越多的数据,很多情况……查看详情

    发布时间:2020.03.24来源:知乎浏览量:48次

  • 全球数据质量和数据治理解决方案市场

    全球数据质量和数据治理解决方案市场

    在企业数据管理生态系统中,数据质量是一个广义的术语,指的是数据和/或过程的质量,完整性和一致性等。数据质量还意味着数据准确性和一致性的程……查看详情

    发布时间:2019.07.11来源:知乎浏览量:35次

  • 如何正确理解数据治理

    如何正确理解数据治理

    我们经常会谈到关于大数据、数据质量、主数据、元数据方面的一些问题,不可避免的会提到数据治理,那么什么是数据治理呢?……查看详情

    发布时间:2020.07.15来源:知乎浏览量:48次

  • 数据治理为什么成为企业必备?

    数据治理为什么成为企业必备?

    基本概念什么是数据治理?答:又叫”数据管控”。引用《DAMA数据管理知识体系指南》一书给出的定义:数据治理是对数……查看详情

    发布时间:2020.07.29来源:CSDN浏览量:96次

  • 数据标准化的难题

    数据标准化的难题

    数据标准好制定,但是数据标准落地相对就困难多了。国内的数据标准化工作发展了那么多年,各个行业,各个组织都在建设自己的数据标准,但是你很少……查看详情

    发布时间:2020.11.13来源:知乎浏览量:66次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议