关注:2019年大数据的10大发展趋势

发布时间:2019.02.12来源:亿信华辰浏览量:151次标签:数据治理

大数据

如今,人们寻求获得更多的数据有着充分的理由,因为数据分析推动了数字创新。然而,将这些庞大的数据集转化为可操作的洞察力仍然是一个难题。而那些获得应对强大数据挑战的解决方案的组织将能够更好地从数字创新的成果中获得经济利益。

考虑到这个基本前提,以下是组织在2019年应该关注的大数据的10个发展趋势。

1.数据管理仍然很难

大数据分析有着相当明确的重要思想:找到隐藏在大量数据中的信息模式,训练机器学习模型以发现这些模式,并将这些模型实施到生产中以自动对其进行操作。需要清理数据,并在必要时进行重复。

然而,将这些数据投入生产的现实要比看上去困难得多。对于初学者来说,收集来自不同孤岛的数据很困难,需要提取、转换和加载(ETL)和数据库技能。清理和标记机器学习培训的数据也需要花费大量的时间和费用,特别是在使用深度学习技术时。此外,以安全可靠的方式将这样的系统大规模投入生产需要另外一套技能。

出于这些原因,数据管理仍然是一个巨大的挑战,数据工程师将继续成为大数据团队中最受欢迎的角色之一。

2.数据孤岛继续激增

这个预测并不困难。在五年前的Hadoop开发热潮中,人们认为可以将所有数据(包括分析和事务工作负载)整合到一个平台上。

出于各种原因,这个想法从未真正实现过。其面临的最大挑战是不同的数据类型具有不同的存储要求。关系数据库、图形数据库、时间序列数据库、HDF和对象存储都有各自的优缺点。如果开发人员将所有数据塞进一个适合所有数据的数据湖中,他们就无法最大限度地发挥其优势。

在某些情况下,将大量数据集中到一个地方确实有意义。例如,像S3这样的云数据存储库为企业提供了灵活且经济高效的存储,而Hadoop仍然是非结构化数据存储和分析的经济高效的存储。但对于大多数公司而言,这些只是必须管理的额外孤岛。当然,它们是重要的孤岛,但它们不是唯一的。

而在缺乏强大集权的情况下,数据仓库将会继续激增。

3. 流媒体分析的突破性的一年

组织处理新数据越快,业务发展就会越好。这是实时分析或流式分析背后的推动力。但组织一直面临的挑战是要真正做到这一点非常困难,而且成本也很高,但随着组织的分析团队的成熟和技术的进步,这种情况正在发生变化。

NewSQL数据库、内存数据网格和专用流分析平台围绕通用功能进行融合,这需要对输入数据进行超快处理,通常使用机器学习模型来自动化决策。

将它与Kafka、Spark和Flink等开源流式框架中的SQL功能相结合,组织就可以在2019年获得真正的进步。

4.数据治理不善将带来风险

有些人将数据称之为“新石油”,也被称为“新货币”。无论是什么样的比喻,大家都认为数据具有价值,并且如果对此不重视将会带来更大的风险。

欧盟通过去年颁布的GDPR法规阐明了数据治理不善的财务后果。虽然美国还没有类似的法律,但美国公司仍然必须遵守由美国联邦、各州等创建的80个不同的数据制授权法规。

数据泄露正在引发问题。根据Harris Poll公司进行的一项在线调查,2018年有近6000万美国人受到身份盗窃的影响。这比2017年增长了300%,当时只有1500万人表示受到了影响。

大多数组织已经意识到无序发展的大数据时代即将结束。而很多国家和地区的政府对数据滥用或隐私泄露行为不再容忍。

5.随着技术的发展,技能也在转变

人力资源通常是大数据项目中的最大成本,因为工作人员最终构建并运行大数据项目,并使其发挥作用。无论使用何种技术,找到具有合适技能的人员对于将数据转化为洞察力至关重要。

而随着技术的进步,技能组合也是如此。在2019年,人们可以看到企业对于神经网络专业人才的巨大需求。在数据科学家(而不是人工智能专家)的技能中,Python仍然在语言中占主导地位,尽管对于R、SAS、Matlab、Scala、Java和C等语言还有很多工作要做。

随着数据治理计划的启动,对数据管理人员的需求将会增加。能够使用核心工具(数据库、Spark、Airflow等)的数据工程师将继续看到他们的机会增长。人们还可以看到企业对机器学习工程师的需求加速增长。

然而,由于自动化数据科学平台的进步和发展,组织的一些工作可以通过数据分析师或“公民数据科学家”来完成,因为众所周知,数据和业务的知识和技能可能会让组织在大数据道路上走得更远,而不是统计和编程。

6.深度学习变得更加深入

深度学习的发展为人工智能的应用提供了更多的动力,在2019年没有任何减缓的迹象。组织将继续尝试深度学习框架,如TensorFlow、Caffe、Keras、PyTorch和MXnet,以期将大量数据集实现货币化。

组织将扩展深度学习,超越其最初的用例,如计算机视觉和自然语言处理(NLP),并找到实现强大技术的新的和创造性的方法。大型金融机构已经发现神经网络算法比“传统”机器学习方法更能发现欺诈行为,并且将在2019年继续探索新的用例。

这也将支持对GPU的需求,GPU是培训深度学习模型的首选处理器。目前还不清楚是否有新的处理器类型,包括ASIC、TPU和FPGA。但是,显然还需要更快的培训和推理。

然而,深度学习生态系统将保持相对年轻,缺乏通用平台将使其成为真正专家的领域。

7.“Special K”扩大了足迹

软件需要运行一些东西。用于提供通用基础的操作系统,但现在开发人员的目标要低一点:Kubernetes。

Kubernetes由Google公司开发,用于管理和协调云中的虚拟化Linux容器,在IT行业中,它已成为大数据生态系统中最热门的技术之一。随着多云和混合部署变得越来越普遍,Kubernetes就是将它们整合在一起的粘合剂。

以前编写Hadoop上运行的软件的大数据软件供应商现在正在编写Kubernetes上运行的软件,这至少让他们进入了前台。支持Kubernetes软件已经成为软件供应商(包括Hadoop供应商)的首要需求。

8. 难以忽视的云计算

云计算的规模越来越大。2018年,全球三大公共云供应商的业务增长率接近50%。云计算供应商提供了一系列大数据工具和技术,更不用说用于存储所有数据的廉价存储,因此用户很难抵御云计算的诱惑。

2019年,小型企业和初创企业将被主要的公共云提供商提供的服务所吸引,这些云计算提供商正在投入巨资建设随时可运行的大数据平台,提供自动化机器学习、分析数据库和实时流分析服务。

即使成本方面并不那么吸引人,大型企业也难以抗拒云计算所带来的好处。然而,将业务锁定在单一云计算供应商,这让大型企业担心面临将所有鸡蛋放在一个篮子中的风险。

9.新技术将会出现

当今推动创新的许多主要大数据框架和数据库都是由全球网络巨头创建的,并作为开源应用发布。好消息是可能将加快技术创新。

在2019年,大数据从业者在他们的创作中会尽可能保持灵活性。虽然出于性能原因,将应用程序绑定到某项技术可能会很有诱惑力,但是当更好、更快地出现这种情况时,这可能会让组织感到困扰。

尽可能多地保持应用程序“松散耦合但紧密集成”,因为最终必须将其拆分并重新构建。

10.智能设备无处不在

如今,智能设备无处不在,并且不断收集数据。而在消费者需求的推动下,智能设备正以惊人的速度增长。智能设备生态系统正在亚马逊Alexa和谷歌智能助理两大领先平台上崭露头角,为消费者提供了将远程访问和人工智能融入从照明、暖通空调系统、门锁、家用电器等各个行业领域的机会。

由于超高速5G无线网络即将推出,消费者将能够与众多设备进行交互,并且无论在哪里,都会提供新的个性化服务。

2019年,大数据将在多个方面取得进展。虽然大数据和人工智能的发展仍然存在大量的技术、法律和道德障碍,但潜在的好处巨大,不容忽视。如今,人们寻求获得更多的数据有着充分的理由,因为数据分析推动了数字创新。然而,将这些庞大的数据集转化为可操作的洞察力仍然是一个难题。而那些获得应对强大数据挑战的解决方案的组织将能够更好地从数字创新的成果中获得经济利益。


(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 数据共享交换平台解决方案

    数据共享交换平台解决方案

    数据交换平台是业务系统间无缝共享数据、连通信息孤岛的高速公路,由数据交换管理模块、核心元数据审批模块、适配器模块、数据传输设计模块,权限……查看详情

    发布时间:2020.04.23来源:知乎浏览量:238次

  • 高质量的数据一般包括哪些特征?

    高质量的数据一般包括哪些特征?

    ​基于数据决策的前提是数据可靠且相关,数据必须是“真实可信的”,否则“输出将是误导和无效的”。但是企业所收集的数据可能不完全,或者更新不……查看详情

    发布时间:2022.06.09来源:小亿浏览量:3521次

  • 大数据时代传统工业企业的转型之路

    大数据时代传统工业企业的转型之路

    基于互联网与大数据的企业商业模式创新,使得传统的生产、流通和消费等环节呈现出前所未有的“信息化”、“扁平化”和“无界化”。借助于大数据的……查看详情

    发布时间:2019.03.27来源:亿信华辰浏览量:157次

  • 数据治理对于大数据分析势在必行

    数据治理对于大数据分析势在必行

    数据被定义为“收集在一起以供参考或分析的事实和统计数据。”信息是“关于某事物或某人提供或了解的事实,”这是一个至关重要的信息。“信息治理……查看详情

    发布时间:2018.11.21来源:浏览量:159次

  • 数据交换标准是什么

    数据交换标准是什么

    目前,国内采用软件管理的企业众多,有的企业自己开发管理软件、有的购买软件厂商的产品。但是它们采用的数据库平台和数据库结构各不相同。不同企……查看详情

    发布时间:2020.08.12来源:小亿浏览量:176次

  • 中国地方政府数据治理机构的初步研究:现状与模式

    中国地方政府数据治理机构的初步研究:现状与模式

    立数据治理机构是中国地方政府迎接数字时代的一项重要治理创新。本文对近年来先后成立的地方政府数据治理机构的发展现状进行了详细梳理,对其隶属……查看详情

    发布时间:2019.02.25来源:电子政务网浏览量:198次

  • 为什么你应该有一个数据治理策略

    为什么你应该有一个数据治理策略

    垃圾进垃圾出。自打孔卡和电传终端以来,这个座右铭一直是真实的。如今,复杂的IT系统同样依赖于高质量的数据,无论是在会计,生产还是商业智能……查看详情

    发布时间:2018.11.22来源:数据治理浏览量:230次

  • 解决方案中的简单性:迈向身份治理的步骤

    解决方案中的简单性:迈向身份治理的步骤

    面对颠覆性变革,只有在新设备和平台上线时才会加深,并且随着物联网投放更多数据,身份治理至关重要。企业现在通过自己的部署和合作伙伴关系来管……查看详情

    发布时间:2019.03.13来源:亿信华辰浏览量:177次

  • 人人都说大数据,那你知道它的核心价值吗?

    人人都说大数据,那你知道它的核心价值吗?

    近些年来,大数据已成为了大家茶余饭后讨论的热门话题,像数据安全、数据挖掘、数据分析等围绕大数据的一系列技术也深受市场的喜爱。那么,在这样……查看详情

    发布时间:2019.03.28来源:亿信华辰浏览量:157次

  • 为何数据治理如此重要?

    为何数据治理如此重要?

    如我们所见,数据正在以前所未有的速度增长,IDC曾发布报告称,到2025年,全球数据圈预计将增长至175 ZB。如何在这样一个数据大爆发……查看详情

    发布时间:2020.04.09来源:知乎浏览量:201次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议