大数据是如何被采集及应用的

发布时间:2019.01.11来源:亿信华辰浏览量:158次标签:数据治理

尽管“大数据”一词近年来屡遭热捧,但很多人都还不知道什么是大数据,更不知道大数据有什么用。这两年,发现“大数据”这个词出现的越来越频繁了,不仅企业,连国家都在部署大数据战略,但是还是没搞懂大数据到底是什么,直到有一天我发现不管我在网上搜索什么,页面都会跳出我要搜索的相关产品或关联事物。

所谓大数据,就是算法!它能够“算”出我们“心中所想”。

那么问题来了,大数据技术是如何采集到我们的信息的呢?

数据采集,又称数据获取,是利用一种装置,从系统外部采集数据并输入到系统内部的一个接口。在互联网行业快速发展的今天,数据采集已经被广泛应用于互联网及分布式领域,比如摄像头,麦克风,都是数据采集工具。

数据采集系统整合了信号、传感器、激励器、信号调理、数据采集设备和应用软件。在数据大爆炸的互联网时代,数据的类型也是复杂多样的,包括结构化数据、半结构化数据、非结构化数据。结构化最常见,就是具有模式的数据。非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。大数据采集,是大数据分析的入口,所以是相当重要的一个环节。

我们首先来了解一下数据采集的三大要点:

一、数据采集的三大要点

(1)全面性

数据量足够具有分析价值、数据面足够支撑分析需求。

比如对于“查看商品详情”这一行为,需要采集用户触发时的环境信息、会话、以及背后的用户id,最后需要统计这一行为在某一时段触发的人数、次数、人均次数、活跃比等。

(2)多维性

数据更重要的是能满足分析需求。灵活、快速自定义数据的多种属性和不同类型,从而满足不同的分析目标。

比如“查看商品详情”这一行为,通过埋点,我们才能知道用户查看的商品是什么、价格、类型、商品id等多个属性。从而知道用户看过哪些商品、什么类型的商品被查看的多、某一个商品被查看了多少次。而不仅仅是知道用户进入了商品详情页。

(3)高效性

高效性包含技术执行的高效性、团队内部成员协同的高效性以及数据分析需求和目标实现的高效性。也就是说采集数据一定要明确采集目的,带着问题搜集信息,使信息采集更高效、更有针对性。此外,还要考虑数据的及时性。

不同应用领域的大数据其特点、数据量、用户群体均不相同。不同领域根据数据源的物理性质及数据分析的目标采取不同的数据采集方法。

那么,接下来我们再来了解一下常用的数据采集的方法。

 

常用的数据采集方法归结为以下三类:传感器、日志文件、网络爬虫。

(1)传感器

传感器通常用于测量物理变量,一般包括声音、温湿度、距离、电流等,将测量值转化为数字信号,传送到数据采集点,让物体有了触觉、味觉和嗅觉等感官,让物体慢慢变得活了起来。

(2)系统日志采集方法

日志文件数据一般由数据源系统产生,用于记录数据源的执行的各种操作活动,比如网络监控的流量管理、金融应用的股票记账和 web 服务器记录的用户访问行为。

很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。

(3)Web 爬虫

网络爬虫是指为搜索引擎下载并存储网页的程序,它是搜索引擎和 web 缓存的主要的数据采集方式。通过网络爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。

此外,对于企业生产经营数据上的客户数据,财务数据等保密性要求较高的数据,可以通过与数据技术服务商合作,使用特定系统接口等相关方式采集数据。比如八度云计算的数企BDSaaS,无论是数据采集技术、BI数据分析,还是数据的安全性和保密性,都做的很好。

数据的采集是挖掘数据价值的第一步,当数据量越来越大时,可提取出来的有用数据必然也就更多。只要善用数据化处理平台,便能够保证数据分析结果的有效性,助力企业实现数据驱动。


(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 数据治理—各种规模银行的增长之路

    数据治理—各种规模银行的增长之路

    银行看到修复数据问题的成本显着上升。无论是建立集成能力以应对老化技术的直接费用,还是监管机构或审计师发现数据问题和评估民事罚款的间接费用……查看详情

    发布时间:2019.03.27来源:亿信华辰浏览量:155次

  • 数据治理的挑战——GDPR(通用数据保护条例)

    数据治理的挑战——GDPR(通用数据保护条例)

    健全的数据治理方案是目前企业的最佳发展策略。而GDPR是客户信任并遵守当地以及国际法律的核心。……查看详情

    发布时间:2018.11.16来源:盖斯扎普浏览量:199次

  • 什么是数据标准?如何制定数据标准?这份指南送上

    什么是数据标准?如何制定数据标准?这份指南送上

    随着大数据行业的兴起,数据的重要性不言而喻,对数据进行应用的工具层出不穷,带来了巨大的经济效益。可很快就发现了诸多数据问题,制约了数据应……查看详情

    发布时间:2020.09.29来源:头条浏览量:184次

  • 企业数据治理存在很多误区和陷阱

    企业数据治理存在很多误区和陷阱

    企业数据治理存在很多误区和陷阱,最常见的陷阱包括:重IT而轻业务: 尽管通常是专业IT人员最先认识到数据治理的必要性,但他们既不是数据的……查看详情

    发布时间:2020.07.09来源:CSDN浏览量:175次

  • 在AHIMA的医疗保健信息治理框架内

    在AHIMA的医疗保健信息治理框架内

    医疗保健一直在与信息治理斗争。这并不奇怪,考虑到有多少数据以及它来自多少不同的源。美国健康信息管理协会希望改变这种状况。……查看详情

    发布时间:2019.01.15来源:亿信华辰浏览量:225次

  • 数据交换管理—企业数据上链的起点

    数据交换管理—企业数据上链的起点

    随着数据体量的增长,大数据处理、大数据应用分析的门槛逐渐提高,社会普遍开始重视数据安全和隐私。目前,数据交换共享平台已成为政府和企业在系……查看详情

    发布时间:2020.08.11来源:知乎浏览量:221次

  • 中小银行行数据治理是否错过最佳建设期?

    中小银行行数据治理是否错过最佳建设期?

    数据治理基础建设缺失、人才匮乏、意识觉醒较晚。目前中小银行数据治理难点有哪些?中小银行行数据治理是否错过最佳建设期。……查看详情

    发布时间:2019.11.28来源:知乎浏览量:157次

  • 企业数字化转型中数据中台建设面临的挑战

    企业数字化转型中数据中台建设面临的挑战

    当前全球经济进入数字化转型时期,数字化转型已成为传统企业必须付诸行动必选题。基于企业业务数字化要求,企业可利用数据中台提供的大数据能力,……查看详情

    发布时间:2020.04.01来源:知乎浏览量:183次

  • 数据治理在大数据领域的重要性

    数据治理在大数据领域的重要性

    即使在过去,企业也要面对超出其基础设施和流程处理能力的大量数据,更不用说要从数据中挖掘出对制定有效决策有实际价值的情报了。如今,随着种类……查看详情

    发布时间:2019.12.06来源:CSDN浏览量:172次

  • 幸存下来的数据治理浪潮

    幸存下来的数据治理浪潮

    我们正在从大数据的狂野西部时期出现,当时的问题主要集中在技术上是否可行,而不是合法或道德。文化需要一段时间才能改变,工具的发展也需要时间……查看详情

    发布时间:2019.03.05来源:亿信华辰浏览量:164次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议