2019年的数据前景如何

发布时间:2019.01.07来源:数据治理浏览量:200次标签:数据治理

 这三个与数据相关的趋势今年值得关注。

公司喜欢技术堆栈所有层的“即服务”模式,从云供应商提供的基础架构到完整的SaaS应用程序。但是,在数据方面,公司仍然采用IT拥有和IT控制模式运行,数据用户正在等待轮到他们。

今年,我们将看到开源技术,方法和云服务的不断采用,使公司更接近数据的“即服务”模式,使他们的数据科学家,数据消费者和数据工程师比永远。

趋势#1:Apache Arrow和Arrow Flight的崛起

在过去的三年中,出现了一种名为Apache Arrow的内存分析新标准。Arrow不是应用程序或运行时进程。相反,Arrow是一个开源项目,它指定用于处理数据的柱状内存格式以及对箭头柱状数据格式执行低级操作的软件库。

今天,Arrow用于许多类型的软件应用程序,包括SQL引擎(例如Dremio的Sabot),数据框架(例如,Python pandas),分布式处理(例如Spark),数据库(例如InfluxDB),机器学习环境(例如RAPIDS)和几个可视化系统。在过去六个月中,Arrow的采用率急剧上升,仅在Python社区就有超过100万的下载量。

这种采用的原因很明显:分析应用程序的开发人员希望最大限度地提高系统效率,以改善用户体验并降低在云运行时环境中运行这些系统的成本。通过转向基于箭头的架构,开发人员通过大约100倍的速度和效率改进并不罕见。

2019年,我们将继续在更多软件应用程序中采用Arrow,包括机器学习,数据科学,统计软件包和商业智能。部分驱动器来自速度和效率的好处,但采用也是由实现Arrow实现免费交换数据的系统的能力所驱动。当两个系统都实现Arrow时,可以在不对数据进行序列化和反序列化的情况下进行数据交换,而无需进行不必要的复制,从而释放CPU,GPU和内存资源以执行更重要的工作。

这将我们带到Arrow Flight,这是应用程序与Arrow交互的新方式。您可以将Flight视为ODBC / JDBC的替代方案,以用于内存分析。现在我们已经建立了一种在内存中表示数据的方法,Flight定义了一种在系统之间交换数据的标准化方法。

例如,对于与Dremio(我共同创建的公司)交互的客户端应用程序,今天我们将数据反序列化为一个通用结构。当Tableau通过ODBC查询Dremio时,我们处理查询并将结果作为箭头缓冲区一直流式传输到ODBC客户端,然后再序列化为ODBC期望的基于单元的协议。一旦Arrow Flight一般可用,实现Arrow的应用程序就可以直接使用Arrow缓冲区。在我们的内部测试中,我们观察到这种方法与ODBC / JDBC接口相比,效率提高了10倍-100倍。

趋势2:数据即服务

我们现在已经进入AWS时代已经10年了,它始于按小时计费的按需基础架构。DaaS已经在整个堆栈中向上移动,包括完整的应用程序和介于两者之间的每个构建块。现在,公司希望为他们的数据提供同样的“按需”体验,即时满足个人用户的特定需求,具有出色的性能,易用性,与他们喜爱的工具的兼容性,而且无需等待数月的IT。

数据即服务包括几个不同的功能:

数据目录:全面的数据资产清单,使数据使用者可以轻松地跨不同系统和来源查找数据,以及以对业务有意义的方式描述数据。

数据管理:用于过滤,混合和转换特定作业的数据的工具。可以将可重用数据集添加到数据目录中以供其他用户发现。某些部署可以在虚拟上下文中实现数据管理,以最小化数据副本。

数据沿袭:在从不同系统访问数据集并创建新数据集时,跟踪数据集的出处和沿袭的能力。


数据加速:数据加速允许快速,交互式访问大型数据集。数据消费者需要以思维的速度工作。如果查询需要几分钟才能处理,则用户无法有效地执行其工作。


数据虚拟化:企业数据存在于许多不同的系统中,包括数据仓库,数据湖泊和操作系统。数据即服务提供了一种统一的原位访问数据的方法,无需将所有数据复制到新的孤岛中。


SQL执行: SQL仍然是数据分析的事实标准。每个BI工具和每个数据科学平台都支持SQL作为从不同来源访问数据的主要方法。数据即服务提供SQL作为这些工具和系统的接口。


公司现在通过结合这些功能来提高数据消费者的生产力,从而构建数据即服务。利用开源项目,开放标准和云服务,公司将在关键业务线上向数据消费者提供他们的第一次数据即服务迭代。

趋势#3:云数据湖

随着公司重新升级AWS,Azure和Google的云服务平台,数据分析往往是最具挑战性的过渡。每个供应商都为数据仓库和数据集市提供了一种替代方案:AWS上的Redshift,Azure上的SQL数据仓库和Google上的BigQuery。还有独立产品,如Snowflake,支持多个云平台。

除数据仓库外,公司还可以选择其数据科学工作负载,包括每个云供应商的本地Spark产品,以及来自不同供应商(如Databricks)的一系列数据科学平台。

云数据湖将成为云数据仓库和云数据科学环境基础的通用平台。随着公司将其分析工作负载迁移到云,云数据湖就在哪里:

数据首先以原始形式存在,包括遗留应用程序和流数据 根据不同需求对数据进行转换,丰富和混合 数据用于数据科学用例 数据被加载到云数据仓库中


公司正在使用多种技术构建云数据湖:AWS上的S3,Azure上的ADLS和用于存储数据的Google云存储。对于数据处理,公司使用多种选项,包括Spark,Hive,AWS Glue,Azure Data Factory和Google Cloud Dataflow。其他功能将继续出现,例如与Kafka等流媒体平台以及数据目录和数据准备工具更紧密的集成。即使是最基本的形式,云数据湖也将成为迁移到云的公司的基础系统。


 

(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 什么是数据治理以及数据治理架构

    什么是数据治理以及数据治理架构

    数据治理(DataGovernance),是企业数据治理部门发起并推行的,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的……查看详情

    发布时间:2018.12.06来源:数据治理浏览量:326次

  • 为什么企业要实施数据治理?

    为什么企业要实施数据治理?

    目前,业界对这个概念没有统一的标准定义。从本质上来看,数据治理就是对一个机构(企业或政府部门)的数据,从收集融合到分析管理、进行评估、指……查看详情

    发布时间:2020.07.15来源:知乎浏览量:171次

  • 可以加强您的数据治理框架的五大方面

    可以加强您的数据治理框架的五大方面

    信息就是力量,您的组织每天都依靠它来做出明智的商业决策。不幸的是,组织产生的数据并没有按照应有的方式进行管理。大数据调查表明,业务和技术……查看详情

    发布时间:2019.07.04来源:知乎浏览量:245次

  • 统一数据交换平台解决方案

    统一数据交换平台解决方案

    随着我国信息化工程建设的迅速发展,各政府部门及各大企业内部都建立了各自的信息处理系统。这些信息系统往往是在不同时期、由不同厂商、在不同平……查看详情

    发布时间:2020.08.07来源:知乎浏览量:213次

  • 数据治理与数据质量有何不同?

    数据治理与数据质量有何不同?

    当下是一个大数据的时代,有越来越多的企业开始应用大数据来创造价值,为了能够充分的利用数据价值,企业需要对数据进行管理,当我们听到数据管理……查看详情

    发布时间:2019.07.26来源:知乎浏览量:198次

  • Spring Boot、微服务架构和大数据治理三者之间的故事

    Spring Boot、微服务架构和大数据治理三者之间的故事

    微服务的诞生并非偶然,它是在互联网高速发展,技术日新月异的变化以及传统架构无法适应快速变化等多重因素的推动下诞生的产物。……查看详情

    发布时间:2019.01.07来源:亿信华辰浏览量:183次

  • 通往更安全,更好数据的途径

    通往更安全,更好数据的途径

    企业在建立监督数据运营的理事会时面临的最大问题之一是原始事实和数据很少为分析做好准备。……查看详情

    发布时间:2019.04.03来源:亿信华辰浏览量:159次

  • 数据管理与数据治理的区别

    数据管理与数据治理的区别

    当我们谈数据资产管理时,我们究竟在谈什么?就目前而言,我们谈论得最多的非数据管理和数据治理这两个概念莫属。但是对于这两个概念,两者的准确……查看详情

    发布时间:2018.09.13来源:浏览量:162次

  • 区块链是金融数据治理的天然工具

    区块链是金融数据治理的天然工具

    一、从金融数据管理到金融数据治理进入“大数据时代”,不仅催生更多金融业态,数据体量更是呈现爆炸式增长。如何将金融……查看详情

    发布时间:2019.01.07来源:亿信华辰浏览量:200次

  • 数据标准管理平台解决方案

    数据标准管理平台解决方案

    企业内部开展企业数据资源整合工作,实现对企业核心业务、核心资源的综合管控,是企业信息化的一个核心目标。通过体系化的数据资源管理平台的建设……查看详情

    发布时间:2020.04.28来源:知乎浏览量:232次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议