企业大数据的现状与痛点——《企业大数据实践路线》之一

发布时间:2019.02.25来源:亿信华辰浏览量:23次标签:数据治理

内容分类:

1、 企业大数据现状及痛点
      2、 大数据对企业的促进作用
      3、 解析业务数据的特征
      4、 典型技术架构的分析和构建

前三个为铺垫类,最重要的是第四个。但前三个的重要性也非常高,把目录调整下变成目标B,再来看就比较清楚:

 

 

1、 找出问题,才能解决问题;

2、 计算收益,大多数都是做企业型的,而非学术型,所以收益是企业必不可少要考虑的,并且也是要痛点痛到不能呼吸时,大多企业才会花费大量的精力去解决,而不是无关痛痒的东西也拿来占用大量企业资源解决,这样一定情况上会影响业务增长与企业生存,这一点也是非常重要的;

3、 分析病灶,找到瓶劲,制定应对措施;

4、 给出解决方案,制定计划,对症下药,解决问题。这一点是最最重要的,涉及到架构搭建以及套路化的解决问题方法论。

下面就重点介绍目录1的所有内容:如何发现问题。

一、大数据的概念

很多人都在听大数据如何如何,怎样怎样。但大数据到底是怎样的,并不是非常清晰。从表面现象来看,大数据是一个海量数据,但问题在于我们要让这些海量的数据产生价值,就要通过一些挖掘工具来寻找它的价值 ,这是大数据尤为重要的方向。

大数制的标准定义:

1、从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。

2、大数据的特色在于对海量数据进行分布式数据挖掘,其战略意义不在于掌握庞大的数据信息,而在于对这些有意义的数据进行专业化处理。

3、如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过加工实现数据的“增值”。

大数据和云计算之间的关系是一体两面的,没有云计算就没有大数据。

二、大数据的前世今生

无论是大数据还是云计算,都有一个非常重要的角度,2004~2007这三年,谷歌发布了三篇论文,引爆了大数据时代的降临。

这三篇论文是基于分布式数据库、分布式文件系统,以及弹性计算,它纯属理论,研究报告。

到了2008年,大数据之父”道格 · 卡丁把谷歌的三篇论文从理论变成了稳定产品。就是HADOOP生态逐渐起来。

2012年,联合国、中、美等国发布大数据白皮书。阿里巴巴设立首席数据官一职。原来只有CIO,没有CDO,这也是从2012年之后才开始流行起来,有CDO这个职位。

 

 

三、本期内容的重要环节:企业数据现状及痛点

数据的收集分三类

客户端数据收集
      业务端数据收集
      服务端数据收集

 

 

一)客户端的数据收集主要分两种:浏览器信息的收集/网络特征信息的收集,能收集到的和已收集到的基本上也就这两类。

1、浏览器信息主要通过浏览器请求过来,通过服务器抓包日志里面的一些信息,包括它使用的什么浏览器、请求的参数、cookie等等,这样的数据都是通过浏览传过来的,这部分信息也是比较容易获取的。

2、网络特征信息,存在CS架构程序里面,BS主要是拿浏览器信息,而CS主要通过网络特征信息把它传过来,传到服务器的同时传到日志里面去,这就是整个客户端数据收集层面的数据。

二)业务端数据收集,是比较泛的,可以收集到核心业务数据和业务监控数据以及用户交互行为信息三部分的数据。

这些数据如何定义,分别代表什么?

1) 核心业务数据:整个数据的业务信息,如果你是做电商的,像商品信息、购买信息、订单信息、用户信息都是核心业务数据;

2) 业务监控信息:像流量统计,库存报警,短信发送量监控、账号资金池余额监控,退换货等信息;

3) 用户交互行业信息:如果一个用户在你这里查看了一件商品,阅读了一篇文章等信息,它不是很敏感,也不是很核心的信息,只是用户在操作中产生的一个交互数据,这个数据可能是有目的性的,比如他是需要买这件商品,所以他会浏览,也可能是没有目的性的,比如他可能是无意中点进来看看就走了。但是我们的交易信息一般都存在库里面,但也可能是有,你没有收集落地,但却可以被收集。

三)服务端数据收集:分为三个部分的数据:服务器日志/底层服务日志/服务器监控信息

1、服务器日志收集:无论是使用Windows服务器或是Linux服务器,服务器的日志都是非常关键的,同时比较容易收集,但也存在麻烦,它不单纯是服务器有一个什么日志在某个地方,而是有无数个小服务,无数个核心服务组成的一个日志库,就比较庞杂,会有各种各样的服务及应用。

2、底层服务日志:今天在我们的服务器上运行的一个网站,网站可能是通过我们的Apache去暴露的, 也可能是通过Nginx暴露出去的,Apache和Nginx是一个底层服务,它会产生很多很多的日志,这个日志是我们非常重要的一个分析源,是可以被收集的,也有很我公司收集这些数据进行分析。

举个例子:通过分析Nginx日志了解到哪些页面的性能是瓶颈,我的业务系统里面有200个页面,其中有15个页面,响应时间是超过2~3秒钟,这种情况明显是不正常的,就需要进行性能优化处理,这是一种可能性。

第二种可能性:如果系统出现了问题,被攻击,或入侵等问题,可能通知日志去分析哪些页面可能成为入侵的一个点,或口子,包括有没有一些畸形的请求产生,这些都是可以通过服务日志里面看到的,这些分析也是非常重要的,一切的分析都是离不开日志的。

3、服务器监控信息:现在软件越来越多了,都具备收集监控日志的能力,比如做监控开源用的比较多的有Zabbix,还有阿里云的云监控,都是相对用的比较多的,它能监控我们整个服务器CPU的使用,磁盘的使用以及内存的使用,IO的开销等等,不一定是日志的方式去落地的,但会有一个程序去收集它,把数据发送到他的服务端上去。整个服务端收集到的数据都非常的丰富与多元化,也非常庞杂

以上三大类8小块的数据,这些数据都有些什么样的问题?这个是需要我们任何一个人去思考的。

四、数据存在的问题

大部分企业的数据现状,基本上就分如下四个部分,当然也有做好的,可能不存在如下这种情况,但绝大数据情况下,都多少会有一些问题。而我们本身就是一个有问题的企业,一步步从有问题到发现问题、解决问题这样摸爬滚打过来的。

 

 

1、孤岛化:各种各样的业务线、系统、平台每时每刻都在产生数据,但是这些数据不汇聚,深入点讲就是数据可能都不在一台服务器上,业务起来也有先后顺序,不一定都集在一套系统里成。最常见的像用Java做的应用程序,几年前开发的是一个IIS一个版本,Tomcat一个版本,今天开发的产品用的IIS是一个版本,Tomcat又是一个版本,这种问题理论上说是要优先考虑并且要避免的,要对老的版本进行迭代,保持到一个比较新的且稳定的版本,但大部分企业都聚焦在如何把业务更快速的迭代好,把产品上线,很多东西就在过程中慢慢孤岛化。除了IIS与Tomcat外,像Mysql、日志平台的差异等,如果不能有效的统一起来,就无法有效的进行数据分析,这就是孤岛化带来的最大问题。

2、 多格式:企业手中的数据杂乱无章,格式不统一。不能有效整合成统一格式进行应用。如果今天我们要去分析我们的数据,数据要拿来用了,我们都希望数据统一,无论是结构化还是非结构化,大不了JS我们打散放到MongDB里面去,变成一个个文档到后面再去处理,要么就是全部都处理好变成结构化数据,放到一个Mysql,或者是其它结构化的数据里面,再进行统一的分析和处理,但这种状态太理想化了,很难实现,像返回日志的问题,有1000条PV就会有1000条日志,如果这是1天的量,那一年的量可想而知,这样的数据量放到单一的数据库里面去,也不现实,所以多格式面临的问题就是不能有效的整合成统一格式进行应用。

3、 低价值:除了核心业务数据拥有很大价值,最大的问题是所有业务数据的量只占我们所有数据量的5%~10%,其他90%都是附加数据,不能有效的产生价值。所以大数据从字面意思理解,他只是一个名词,是一个海量数据的名词,90%数据都不产生价值的话,它只能属于沉睡数据资产。大部分企业数据都存在这个问题就是低价值的问题。

4、 无应用:拥有大量的数据,90%的数据又不能被直接应用,无法被用户直接感知,它就是我们经常所说的,食之无味,弃之可惜,但又占用空间的无用产物,无应用就体现在占用磁盘,应用了你大量空间,却未被转化成客户可感知、可应用的数据。

五、内容总结

1、大数据的概念
      2、大数据的前世今生
      3、大数据的采集方式
      4、数据的定义
      5、数据存在的问题


(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • “数据法治化治理”应平衡安全与发展

    “数据法治化治理”应平衡安全与发展

    数据治理的法治化问题,即对数据治理主体的权利义务的设定及其关系模式之制度安排,应符合法治主义要求。“数据法治化治理”要特别关注合法性。……查看详情

    发布时间:2019.08.02来源:中国人民大学未来法治研究院浏览量:21次

  • 浅析数据治理与数据安全治理的概念差异

    浅析数据治理与数据安全治理的概念差异

    当我们谈到数据资产的时候,想到最多的就是数据治理,接下来就是数据安全治理,那么这两者之间有什么区别和差异呢?……查看详情

    发布时间:2019.08.14来源:知乎浏览量:30次

  • 为什么集成和治理对数据湖成功至关重要

    为什么集成和治理对数据湖成功至关重要

    这是一个由三部分组成的系列文章的最后一篇文章,探讨如何构建一个能够满足真正企业级数据管理平台所有要求的数据湖。虽然早期的专题文章侧重于H……查看详情

    发布时间:2019.02.28来源:亿信华辰浏览量:27次

  • 未来我国大数据发展还有哪些机遇和挑战?

    未来我国大数据发展还有哪些机遇和挑战?

    随着信息技术和人类生产生活交汇融合,全球数据呈现爆发增长、海量集聚的特点。无论是国家、企业还是社会公众,都越来越认识到数据的价值。……查看详情

    发布时间:2019.03.18来源:亿信华辰浏览量:26次

  • 消费者而非公司是数据治理的优先事项

    消费者而非公司是数据治理的优先事项

    这将是一条漫长的道路,正在努力解决重大问题。但是,对于澳大利亚来说,提供符合社区价值观的创新和包容性增长,我们应该为后代开始实施一个强有……查看详情

    发布时间:2019.03.07来源:亿信华辰浏览量:33次

  • 超越法规遵从:从数据治理创造业务价值

    超越法规遵从:从数据治理创造业务价值

    基于模型的,基于标准的数据治理语义方法正迅速成为整个金融领域的行业规范。这方面的一些最普遍和开拓性的努力是由企业数据管理委员会(EDMC……查看详情

    发布时间:2019.02.28来源:亿信华辰浏览量:18次

  • 启动数据治理框架以取得成功

    启动数据治理框架以取得成功

    许多企业坚持不懈地尝试用数据治理框架来证明自己已经取得了很大的成就。然而,定义那些“伟大的东西”绝非易事 - 因为它们中的大多数只构建了……查看详情

    发布时间:2019.02.13来源:数据治理浏览量:29次

  • 不要欺骗自己关于数据管理

    不要欺骗自己关于数据管理

    采用数据战略的早期阶段通常涉及数据管理的临时方法。企业不是投资于一套新工具,而是倾向于使用已经完成的工作,从小规模开始并最终形成方法。……查看详情

    发布时间:2019.02.25来源:亿信华辰浏览量:29次

  • 企业架构组织的创新能力如何?

    企业架构组织的创新能力如何?

    回想一下最新的企业架构文章,博客文章,甚至是你读过的职位描述,并算一下至少一次没有提到“创新”的内容?我猜测,“创新”往往被作为有效企业……查看详情

    发布时间:2019.02.26来源:亿信华辰浏览量:36次

  • 大数据时代的数据治理

    大数据时代的数据治理

    随着Hadoop技术的提升,数据如何进来,如何整合,开展什么样的应用都已经有了成熟的案例,可是,同传统数仓时代一样,垃圾进垃圾出,如何破……查看详情

    发布时间:2020.03.19来源:知乎浏览量:27次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议