关注:2019年大数据的10大发展趋势

发布时间:2019.02.12来源:亿信华辰浏览量:114次标签:数据治理

大数据

如今,人们寻求获得更多的数据有着充分的理由,因为数据分析推动了数字创新。然而,将这些庞大的数据集转化为可操作的洞察力仍然是一个难题。而那些获得应对强大数据挑战的解决方案的组织将能够更好地从数字创新的成果中获得经济利益。

考虑到这个基本前提,以下是组织在2019年应该关注的大数据的10个发展趋势。

1.数据管理仍然很难

大数据分析有着相当明确的重要思想:找到隐藏在大量数据中的信息模式,训练机器学习模型以发现这些模式,并将这些模型实施到生产中以自动对其进行操作。需要清理数据,并在必要时进行重复。

然而,将这些数据投入生产的现实要比看上去困难得多。对于初学者来说,收集来自不同孤岛的数据很困难,需要提取、转换和加载(ETL)和数据库技能。清理和标记机器学习培训的数据也需要花费大量的时间和费用,特别是在使用深度学习技术时。此外,以安全可靠的方式将这样的系统大规模投入生产需要另外一套技能。

出于这些原因,数据管理仍然是一个巨大的挑战,数据工程师将继续成为大数据团队中最受欢迎的角色之一。

2.数据孤岛继续激增

这个预测并不困难。在五年前的Hadoop开发热潮中,人们认为可以将所有数据(包括分析和事务工作负载)整合到一个平台上。

出于各种原因,这个想法从未真正实现过。其面临的最大挑战是不同的数据类型具有不同的存储要求。关系数据库、图形数据库、时间序列数据库、HDF和对象存储都有各自的优缺点。如果开发人员将所有数据塞进一个适合所有数据的数据湖中,他们就无法最大限度地发挥其优势。

在某些情况下,将大量数据集中到一个地方确实有意义。例如,像S3这样的云数据存储库为企业提供了灵活且经济高效的存储,而Hadoop仍然是非结构化数据存储和分析的经济高效的存储。但对于大多数公司而言,这些只是必须管理的额外孤岛。当然,它们是重要的孤岛,但它们不是唯一的。

而在缺乏强大集权的情况下,数据仓库将会继续激增。

3. 流媒体分析的突破性的一年

组织处理新数据越快,业务发展就会越好。这是实时分析或流式分析背后的推动力。但组织一直面临的挑战是要真正做到这一点非常困难,而且成本也很高,但随着组织的分析团队的成熟和技术的进步,这种情况正在发生变化。

NewSQL数据库、内存数据网格和专用流分析平台围绕通用功能进行融合,这需要对输入数据进行超快处理,通常使用机器学习模型来自动化决策。

将它与Kafka、Spark和Flink等开源流式框架中的SQL功能相结合,组织就可以在2019年获得真正的进步。

4.数据治理不善将带来风险

有些人将数据称之为“新石油”,也被称为“新货币”。无论是什么样的比喻,大家都认为数据具有价值,并且如果对此不重视将会带来更大的风险。

欧盟通过去年颁布的GDPR法规阐明了数据治理不善的财务后果。虽然美国还没有类似的法律,但美国公司仍然必须遵守由美国联邦、各州等创建的80个不同的数据制授权法规。

数据泄露正在引发问题。根据Harris Poll公司进行的一项在线调查,2018年有近6000万美国人受到身份盗窃的影响。这比2017年增长了300%,当时只有1500万人表示受到了影响。

大多数组织已经意识到无序发展的大数据时代即将结束。而很多国家和地区的政府对数据滥用或隐私泄露行为不再容忍。

5.随着技术的发展,技能也在转变

人力资源通常是大数据项目中的最大成本,因为工作人员最终构建并运行大数据项目,并使其发挥作用。无论使用何种技术,找到具有合适技能的人员对于将数据转化为洞察力至关重要。

而随着技术的进步,技能组合也是如此。在2019年,人们可以看到企业对于神经网络专业人才的巨大需求。在数据科学家(而不是人工智能专家)的技能中,Python仍然在语言中占主导地位,尽管对于R、SAS、Matlab、Scala、Java和C等语言还有很多工作要做。

随着数据治理计划的启动,对数据管理人员的需求将会增加。能够使用核心工具(数据库、Spark、Airflow等)的数据工程师将继续看到他们的机会增长。人们还可以看到企业对机器学习工程师的需求加速增长。

然而,由于自动化数据科学平台的进步和发展,组织的一些工作可以通过数据分析师或“公民数据科学家”来完成,因为众所周知,数据和业务的知识和技能可能会让组织在大数据道路上走得更远,而不是统计和编程。

6.深度学习变得更加深入

深度学习的发展为人工智能的应用提供了更多的动力,在2019年没有任何减缓的迹象。组织将继续尝试深度学习框架,如TensorFlow、Caffe、Keras、PyTorch和MXnet,以期将大量数据集实现货币化。

组织将扩展深度学习,超越其最初的用例,如计算机视觉和自然语言处理(NLP),并找到实现强大技术的新的和创造性的方法。大型金融机构已经发现神经网络算法比“传统”机器学习方法更能发现欺诈行为,并且将在2019年继续探索新的用例。

这也将支持对GPU的需求,GPU是培训深度学习模型的首选处理器。目前还不清楚是否有新的处理器类型,包括ASIC、TPU和FPGA。但是,显然还需要更快的培训和推理。

然而,深度学习生态系统将保持相对年轻,缺乏通用平台将使其成为真正专家的领域。

7.“Special K”扩大了足迹

软件需要运行一些东西。用于提供通用基础的操作系统,但现在开发人员的目标要低一点:Kubernetes。

Kubernetes由Google公司开发,用于管理和协调云中的虚拟化Linux容器,在IT行业中,它已成为大数据生态系统中最热门的技术之一。随着多云和混合部署变得越来越普遍,Kubernetes就是将它们整合在一起的粘合剂。

以前编写Hadoop上运行的软件的大数据软件供应商现在正在编写Kubernetes上运行的软件,这至少让他们进入了前台。支持Kubernetes软件已经成为软件供应商(包括Hadoop供应商)的首要需求。

8. 难以忽视的云计算

云计算的规模越来越大。2018年,全球三大公共云供应商的业务增长率接近50%。云计算供应商提供了一系列大数据工具和技术,更不用说用于存储所有数据的廉价存储,因此用户很难抵御云计算的诱惑。

2019年,小型企业和初创企业将被主要的公共云提供商提供的服务所吸引,这些云计算提供商正在投入巨资建设随时可运行的大数据平台,提供自动化机器学习、分析数据库和实时流分析服务。

即使成本方面并不那么吸引人,大型企业也难以抗拒云计算所带来的好处。然而,将业务锁定在单一云计算供应商,这让大型企业担心面临将所有鸡蛋放在一个篮子中的风险。

9.新技术将会出现

当今推动创新的许多主要大数据框架和数据库都是由全球网络巨头创建的,并作为开源应用发布。好消息是可能将加快技术创新。

在2019年,大数据从业者在他们的创作中会尽可能保持灵活性。虽然出于性能原因,将应用程序绑定到某项技术可能会很有诱惑力,但是当更好、更快地出现这种情况时,这可能会让组织感到困扰。

尽可能多地保持应用程序“松散耦合但紧密集成”,因为最终必须将其拆分并重新构建。

10.智能设备无处不在

如今,智能设备无处不在,并且不断收集数据。而在消费者需求的推动下,智能设备正以惊人的速度增长。智能设备生态系统正在亚马逊Alexa和谷歌智能助理两大领先平台上崭露头角,为消费者提供了将远程访问和人工智能融入从照明、暖通空调系统、门锁、家用电器等各个行业领域的机会。

由于超高速5G无线网络即将推出,消费者将能够与众多设备进行交互,并且无论在哪里,都会提供新的个性化服务。

2019年,大数据将在多个方面取得进展。虽然大数据和人工智能的发展仍然存在大量的技术、法律和道德障碍,但潜在的好处巨大,不容忽视。如今,人们寻求获得更多的数据有着充分的理由,因为数据分析推动了数字创新。然而,将这些庞大的数据集转化为可操作的洞察力仍然是一个难题。而那些获得应对强大数据挑战的解决方案的组织将能够更好地从数字创新的成果中获得经济利益。


(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 大数据治理:数据问题的全面解决之道

    大数据治理:数据问题的全面解决之道

    当今的大型企业,内部分工日趋细化,采购、服务、市场、销售、开发、支持、物流、财务、人力等各个环节,无不每时每刻产生着大量的数据。数据的格……查看详情

    发布时间:2018.12.20来源:人民邮电浏览量:143次

  • 北大光华王汉生教授万字长文,讲透数据治理问题!

    北大光华王汉生教授万字长文,讲透数据治理问题!

    2018年3月16日,中国银监会发布了《银行业金融机构数据治理指引(征求意见稿)》,就相关数据治理问题,向全社会公开征求意见,至此银行业……查看详情

    发布时间:2019.06.03来源:王汉生浏览量:150次

  • 中国地方政府数据治理机构的初步研究:现状与模式

    中国地方政府数据治理机构的初步研究:现状与模式

    立数据治理机构是中国地方政府迎接数字时代的一项重要治理创新。本文对近年来先后成立的地方政府数据治理机构的发展现状进行了详细梳理,对其隶属……查看详情

    发布时间:2019.02.25来源:电子政务网浏览量:160次

  • 大数据在媒体行业的应用——《企业大数据实践路线》之二

    大数据在媒体行业的应用——《企业大数据实践路线》之二

    新闻工作者先产生一个内容,形式可以是文字的、视频的等,无论你是编辑还是记者或者说是美编,或电视台的采编人员等等所生产的内容都会存入到业务……查看详情

    发布时间:2019.02.25来源:亿信华辰浏览量:122次

  • 通俗讲透什么是数据资产管理

    通俗讲透什么是数据资产管理

    作为一个初入数据治理这行的小白,刚听到数据资产管理的时候也是一脸懵,资产编目?数据生命周期?归档?概念有时候实在有些抽象,再加上数据本来……查看详情

    发布时间:2020.08.14来源:知乎浏览量:146次

  • 金融服务的数据治理2.0

    金融服务的数据治理2.0

    随着金融服务业面临特别的压力,数据驱动型业务的变化速度正在增加。对于银行,信用卡,保险,抵押贷款公司等,必须正确地进行数据治理。……查看详情

    发布时间:2019.01.25来源:亿信华辰浏览量:147次

  • 数据不是石油,占得多未必有用

    数据不是石油,占得多未必有用

    如果您从事数据科学或相关领域的工作,您可能之前听过这个说法:数据是新的石油资源。……查看详情

    发布时间:2019.02.14来源:亿信华辰浏览量:126次

  • 数据共享交换平台解决方案

    数据共享交换平台解决方案

    数据交换平台是业务系统间无缝共享数据、连通信息孤岛的高速公路,由数据交换管理模块、核心元数据审批模块、适配器模块、数据传输设计模块,权限……查看详情

    发布时间:2020.04.23来源:知乎浏览量:191次

  • 持续的业务改进取决于数据治理

    持续的业务改进取决于数据治理

    当我们认为有价值的东西时,我们需要确定我们如何以及何时使用它以及保护它。我们通过建立标准,政策和流程来定义如何利用和保护此资产。……查看详情

    发布时间:2019.01.26来源:亿信华辰浏览量:177次

  • 如何保证数据质量、数据治理:让数据质量更好

    如何保证数据质量、数据治理:让数据质量更好

    数据分析、数据挖掘等各种数据应用都离不开数据质量,数据质量的重要性不用多表。今天来浅谈如何通过数据治理,来保证数据质量。数据的生命周期往……查看详情

    发布时间:2019.09.12来源:知乎浏览量:180次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议