企业大数据的现状与痛点——《企业大数据实践路线》之一

发布时间:2019.02.25来源:亿信华辰浏览量:173次标签:数据治理

内容分类:

1、 企业大数据现状及痛点
      2、 大数据对企业的促进作用
      3、 解析业务数据的特征
      4、 典型技术架构的分析和构建

前三个为铺垫类,最重要的是第四个。但前三个的重要性也非常高,把目录调整下变成目标B,再来看就比较清楚:

 

 

1、 找出问题,才能解决问题;

2、 计算收益,大多数都是做企业型的,而非学术型,所以收益是企业必不可少要考虑的,并且也是要痛点痛到不能呼吸时,大多企业才会花费大量的精力去解决,而不是无关痛痒的东西也拿来占用大量企业资源解决,这样一定情况上会影响业务增长与企业生存,这一点也是非常重要的;

3、 分析病灶,找到瓶劲,制定应对措施;

4、 给出解决方案,制定计划,对症下药,解决问题。这一点是最最重要的,涉及到架构搭建以及套路化的解决问题方法论。

下面就重点介绍目录1的所有内容:如何发现问题。

一、大数据的概念

很多人都在听大数据如何如何,怎样怎样。但大数据到底是怎样的,并不是非常清晰。从表面现象来看,大数据是一个海量数据,但问题在于我们要让这些海量的数据产生价值,就要通过一些挖掘工具来寻找它的价值 ,这是大数据尤为重要的方向。

大数制的标准定义:

1、从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。

2、大数据的特色在于对海量数据进行分布式数据挖掘,其战略意义不在于掌握庞大的数据信息,而在于对这些有意义的数据进行专业化处理。

3、如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过加工实现数据的“增值”。

大数据和云计算之间的关系是一体两面的,没有云计算就没有大数据。

二、大数据的前世今生

无论是大数据还是云计算,都有一个非常重要的角度,2004~2007这三年,谷歌发布了三篇论文,引爆了大数据时代的降临。

这三篇论文是基于分布式数据库、分布式文件系统,以及弹性计算,它纯属理论,研究报告。

到了2008年,大数据之父”道格 · 卡丁把谷歌的三篇论文从理论变成了稳定产品。就是HADOOP生态逐渐起来。

2012年,联合国、中、美等国发布大数据白皮书。阿里巴巴设立首席数据官一职。原来只有CIO,没有CDO,这也是从2012年之后才开始流行起来,有CDO这个职位。

 

 

三、本期内容的重要环节:企业数据现状及痛点

数据的收集分三类

客户端数据收集
      业务端数据收集
      服务端数据收集

 

 

一)客户端的数据收集主要分两种:浏览器信息的收集/网络特征信息的收集,能收集到的和已收集到的基本上也就这两类。

1、浏览器信息主要通过浏览器请求过来,通过服务器抓包日志里面的一些信息,包括它使用的什么浏览器、请求的参数、cookie等等,这样的数据都是通过浏览传过来的,这部分信息也是比较容易获取的。

2、网络特征信息,存在CS架构程序里面,BS主要是拿浏览器信息,而CS主要通过网络特征信息把它传过来,传到服务器的同时传到日志里面去,这就是整个客户端数据收集层面的数据。

二)业务端数据收集,是比较泛的,可以收集到核心业务数据和业务监控数据以及用户交互行为信息三部分的数据。

这些数据如何定义,分别代表什么?

1) 核心业务数据:整个数据的业务信息,如果你是做电商的,像商品信息、购买信息、订单信息、用户信息都是核心业务数据;

2) 业务监控信息:像流量统计,库存报警,短信发送量监控、账号资金池余额监控,退换货等信息;

3) 用户交互行业信息:如果一个用户在你这里查看了一件商品,阅读了一篇文章等信息,它不是很敏感,也不是很核心的信息,只是用户在操作中产生的一个交互数据,这个数据可能是有目的性的,比如他是需要买这件商品,所以他会浏览,也可能是没有目的性的,比如他可能是无意中点进来看看就走了。但是我们的交易信息一般都存在库里面,但也可能是有,你没有收集落地,但却可以被收集。

三)服务端数据收集:分为三个部分的数据:服务器日志/底层服务日志/服务器监控信息

1、服务器日志收集:无论是使用Windows服务器或是Linux服务器,服务器的日志都是非常关键的,同时比较容易收集,但也存在麻烦,它不单纯是服务器有一个什么日志在某个地方,而是有无数个小服务,无数个核心服务组成的一个日志库,就比较庞杂,会有各种各样的服务及应用。

2、底层服务日志:今天在我们的服务器上运行的一个网站,网站可能是通过我们的Apache去暴露的, 也可能是通过Nginx暴露出去的,Apache和Nginx是一个底层服务,它会产生很多很多的日志,这个日志是我们非常重要的一个分析源,是可以被收集的,也有很我公司收集这些数据进行分析。

举个例子:通过分析Nginx日志了解到哪些页面的性能是瓶颈,我的业务系统里面有200个页面,其中有15个页面,响应时间是超过2~3秒钟,这种情况明显是不正常的,就需要进行性能优化处理,这是一种可能性。

第二种可能性:如果系统出现了问题,被攻击,或入侵等问题,可能通知日志去分析哪些页面可能成为入侵的一个点,或口子,包括有没有一些畸形的请求产生,这些都是可以通过服务日志里面看到的,这些分析也是非常重要的,一切的分析都是离不开日志的。

3、服务器监控信息:现在软件越来越多了,都具备收集监控日志的能力,比如做监控开源用的比较多的有Zabbix,还有阿里云的云监控,都是相对用的比较多的,它能监控我们整个服务器CPU的使用,磁盘的使用以及内存的使用,IO的开销等等,不一定是日志的方式去落地的,但会有一个程序去收集它,把数据发送到他的服务端上去。整个服务端收集到的数据都非常的丰富与多元化,也非常庞杂

以上三大类8小块的数据,这些数据都有些什么样的问题?这个是需要我们任何一个人去思考的。

四、数据存在的问题

大部分企业的数据现状,基本上就分如下四个部分,当然也有做好的,可能不存在如下这种情况,但绝大数据情况下,都多少会有一些问题。而我们本身就是一个有问题的企业,一步步从有问题到发现问题、解决问题这样摸爬滚打过来的。

 

 

1、孤岛化:各种各样的业务线、系统、平台每时每刻都在产生数据,但是这些数据不汇聚,深入点讲就是数据可能都不在一台服务器上,业务起来也有先后顺序,不一定都集在一套系统里成。最常见的像用Java做的应用程序,几年前开发的是一个IIS一个版本,Tomcat一个版本,今天开发的产品用的IIS是一个版本,Tomcat又是一个版本,这种问题理论上说是要优先考虑并且要避免的,要对老的版本进行迭代,保持到一个比较新的且稳定的版本,但大部分企业都聚焦在如何把业务更快速的迭代好,把产品上线,很多东西就在过程中慢慢孤岛化。除了IIS与Tomcat外,像Mysql、日志平台的差异等,如果不能有效的统一起来,就无法有效的进行数据分析,这就是孤岛化带来的最大问题。

2、 多格式:企业手中的数据杂乱无章,格式不统一。不能有效整合成统一格式进行应用。如果今天我们要去分析我们的数据,数据要拿来用了,我们都希望数据统一,无论是结构化还是非结构化,大不了JS我们打散放到MongDB里面去,变成一个个文档到后面再去处理,要么就是全部都处理好变成结构化数据,放到一个Mysql,或者是其它结构化的数据里面,再进行统一的分析和处理,但这种状态太理想化了,很难实现,像返回日志的问题,有1000条PV就会有1000条日志,如果这是1天的量,那一年的量可想而知,这样的数据量放到单一的数据库里面去,也不现实,所以多格式面临的问题就是不能有效的整合成统一格式进行应用。

3、 低价值:除了核心业务数据拥有很大价值,最大的问题是所有业务数据的量只占我们所有数据量的5%~10%,其他90%都是附加数据,不能有效的产生价值。所以大数据从字面意思理解,他只是一个名词,是一个海量数据的名词,90%数据都不产生价值的话,它只能属于沉睡数据资产。大部分企业数据都存在这个问题就是低价值的问题。

4、 无应用:拥有大量的数据,90%的数据又不能被直接应用,无法被用户直接感知,它就是我们经常所说的,食之无味,弃之可惜,但又占用空间的无用产物,无应用就体现在占用磁盘,应用了你大量空间,却未被转化成客户可感知、可应用的数据。

五、内容总结

1、大数据的概念
      2、大数据的前世今生
      3、大数据的采集方式
      4、数据的定义
      5、数据存在的问题


(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 数据治理:建立有效政策的10个步骤

    数据治理:建立有效政策的10个步骤

    数据治理通常与法规遵从性相关。但数据质量和理解是数据治理的核心。作为竞争优势,更全面地使用快速增长的企业数据的能力也是数据治理策略的公认……查看详情

    发布时间:2018.12.14来源:数据治理浏览量:156次

  • 企业实现一个数据治理的项目需要注意什么?

    企业实现一个数据治理的项目需要注意什么?

    数据治理是长期、复杂的工程,每个数据治理的领域都可作为一个独立方向进行研究,目前总结的数据治理领域包括但不限于以下内容:数据标准、数据模……查看详情

    发布时间:2020.03.26来源:知乎浏览量:103次

  • 数据治理 定义,挑战和最佳实践

    数据治理 定义,挑战和最佳实践

    数据治理构成了公司范围数据管理的基础,可以有效地使用可信赖的数据。有效的数据管理是一项需要集中控制机制的重要任务。 为了帮助最终用户更……查看详情

    发布时间:2019.02.20来源:数据治理浏览量:163次

  • 数据治理——企业数字化转型的必经之路

    数据治理——企业数字化转型的必经之路

    主要介绍了数字化转型内涵及发展路径、数据治理为数字化转型提供基础支撑、企业级数据治理整体解决方案。……查看详情

    发布时间:2021.12.31来源:浏览量:177次

  • 数据质量包含的要素有哪几点

    数据质量包含的要素有哪几点

    数据是企业最有价值的资产之一,越来越多的企业认识到了数据的重要性。企业的数据质量与企业经营业绩之间有着直接的关系。高质量的数据可以保持公……查看详情

    发布时间:2022.02.17来源:小亿浏览量:598次

  • 什么数据可以成为“数据资产”

    什么数据可以成为“数据资产”

    什么数据可以成为数据资产?可作为“资产”的数据资源,表现为以下两种形式:可帮助现有产品实现收益的增长;数据本身可产生价值。……查看详情

    发布时间:2021.09.01来源:亿信华辰浏览量:312次

  • 企业大数据的现状与痛点——《企业大数据实践路线》之一

    企业大数据的现状与痛点——《企业大数据实践路线》之一

    内容分类:1、 企业大数据现状及痛点 2、 大数据对企业的促进作用 3、 解析业务数据的特征 4、 典型技术架构的分析和构建……查看详情

    发布时间:2019.02.25来源:亿信华辰浏览量:173次

  • 人工智能治理应当起步

    人工智能治理应当起步

    人工智能正在以前所未有的速度发展,大大超出了人们的预期,目前全球活跃人工智能企业达到了5000家左右。据相关预测,到2022年全球人工智……查看详情

    发布时间:2019.10.18来源:中国经营报浏览量:93次

  • 浅谈数据治理的发展趋势

    浅谈数据治理的发展趋势

    随着大数据技术的飞速发展,大数据已经融入到了各行各业,为了能让各企业的数据资产得到充分的利用,数据治理非常重要,如今数据治理已经逐渐成为……查看详情

    发布时间:2019.07.17来源:知乎浏览量:103次

  • 如何搭建数据质量管理平台

    如何搭建数据质量管理平台

    数据往往在一个企业是相当于一个重要资产,企业在经营的过程中也会积累不少各类数据,这类数据后期也可通过归纳、提炼从而进行深度挖掘分析,给企……查看详情

    发布时间:2019.07.30来源:知乎浏览量:117次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议