2019年的数据前景如何

发布时间:2019.01.07来源:数据治理浏览量:69次标签:数据治理

 这三个与数据相关的趋势今年值得关注。

公司喜欢技术堆栈所有层的“即服务”模式,从云供应商提供的基础架构到完整的SaaS应用程序。但是,在数据方面,公司仍然采用IT拥有和IT控制模式运行,数据用户正在等待轮到他们。

今年,我们将看到开源技术,方法和云服务的不断采用,使公司更接近数据的“即服务”模式,使他们的数据科学家,数据消费者和数据工程师比永远。

趋势#1:Apache Arrow和Arrow Flight的崛起

在过去的三年中,出现了一种名为Apache Arrow的内存分析新标准。Arrow不是应用程序或运行时进程。相反,Arrow是一个开源项目,它指定用于处理数据的柱状内存格式以及对箭头柱状数据格式执行低级操作的软件库。

今天,Arrow用于许多类型的软件应用程序,包括SQL引擎(例如Dremio的Sabot),数据框架(例如,Python pandas),分布式处理(例如Spark),数据库(例如InfluxDB),机器学习环境(例如RAPIDS)和几个可视化系统。在过去六个月中,Arrow的采用率急剧上升,仅在Python社区就有超过100万的下载量。

这种采用的原因很明显:分析应用程序的开发人员希望最大限度地提高系统效率,以改善用户体验并降低在云运行时环境中运行这些系统的成本。通过转向基于箭头的架构,开发人员通过大约100倍的速度和效率改进并不罕见。

2019年,我们将继续在更多软件应用程序中采用Arrow,包括机器学习,数据科学,统计软件包和商业智能。部分驱动器来自速度和效率的好处,但采用也是由实现Arrow实现免费交换数据的系统的能力所驱动。当两个系统都实现Arrow时,可以在不对数据进行序列化和反序列化的情况下进行数据交换,而无需进行不必要的复制,从而释放CPU,GPU和内存资源以执行更重要的工作。

这将我们带到Arrow Flight,这是应用程序与Arrow交互的新方式。您可以将Flight视为ODBC / JDBC的替代方案,以用于内存分析。现在我们已经建立了一种在内存中表示数据的方法,Flight定义了一种在系统之间交换数据的标准化方法。

例如,对于与Dremio(我共同创建的公司)交互的客户端应用程序,今天我们将数据反序列化为一个通用结构。当Tableau通过ODBC查询Dremio时,我们处理查询并将结果作为箭头缓冲区一直流式传输到ODBC客户端,然后再序列化为ODBC期望的基于单元的协议。一旦Arrow Flight一般可用,实现Arrow的应用程序就可以直接使用Arrow缓冲区。在我们的内部测试中,我们观察到这种方法与ODBC / JDBC接口相比,效率提高了10倍-100倍。

趋势2:数据即服务

我们现在已经进入AWS时代已经10年了,它始于按小时计费的按需基础架构。DaaS已经在整个堆栈中向上移动,包括完整的应用程序和介于两者之间的每个构建块。现在,公司希望为他们的数据提供同样的“按需”体验,即时满足个人用户的特定需求,具有出色的性能,易用性,与他们喜爱的工具的兼容性,而且无需等待数月的IT。

数据即服务包括几个不同的功能:

数据目录:全面的数据资产清单,使数据使用者可以轻松地跨不同系统和来源查找数据,以及以对业务有意义的方式描述数据。

数据管理:用于过滤,混合和转换特定作业的数据的工具。可以将可重用数据集添加到数据目录中以供其他用户发现。某些部署可以在虚拟上下文中实现数据管理,以最小化数据副本。

数据沿袭:在从不同系统访问数据集并创建新数据集时,跟踪数据集的出处和沿袭的能力。


数据加速:数据加速允许快速,交互式访问大型数据集。数据消费者需要以思维的速度工作。如果查询需要几分钟才能处理,则用户无法有效地执行其工作。


数据虚拟化:企业数据存在于许多不同的系统中,包括数据仓库,数据湖泊和操作系统。数据即服务提供了一种统一的原位访问数据的方法,无需将所有数据复制到新的孤岛中。


SQL执行: SQL仍然是数据分析的事实标准。每个BI工具和每个数据科学平台都支持SQL作为从不同来源访问数据的主要方法。数据即服务提供SQL作为这些工具和系统的接口。


公司现在通过结合这些功能来提高数据消费者的生产力,从而构建数据即服务。利用开源项目,开放标准和云服务,公司将在关键业务线上向数据消费者提供他们的第一次数据即服务迭代。

趋势#3:云数据湖

随着公司重新升级AWS,Azure和Google的云服务平台,数据分析往往是最具挑战性的过渡。每个供应商都为数据仓库和数据集市提供了一种替代方案:AWS上的Redshift,Azure上的SQL数据仓库和Google上的BigQuery。还有独立产品,如Snowflake,支持多个云平台。

除数据仓库外,公司还可以选择其数据科学工作负载,包括每个云供应商的本地Spark产品,以及来自不同供应商(如Databricks)的一系列数据科学平台。

云数据湖将成为云数据仓库和云数据科学环境基础的通用平台。随着公司将其分析工作负载迁移到云,云数据湖就在哪里:

数据首先以原始形式存在,包括遗留应用程序和流数据 根据不同需求对数据进行转换,丰富和混合 数据用于数据科学用例 数据被加载到云数据仓库中


公司正在使用多种技术构建云数据湖:AWS上的S3,Azure上的ADLS和用于存储数据的Google云存储。对于数据处理,公司使用多种选项,包括Spark,Hive,AWS Glue,Azure Data Factory和Google Cloud Dataflow。其他功能将继续出现,例如与Kafka等流媒体平台以及数据目录和数据准备工具更紧密的集成。即使是最基本的形式,云数据湖也将成为迁移到云的公司的基础系统。


 

(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 全栈式数据标准管理平台方案来了!

    全栈式数据标准管理平台方案来了!

    数据标准百度给的解释就是数据标准化是企业或组织对数据的定义、组织、监督和保护进行标准化的过程。数据标准化分为开发(D)、候选(C)、批准……查看详情

    发布时间:2020.08.28来源:知乎浏览量:88次

  • 亿信华辰成为DAMA数据管理知识体系授权培训基地

    亿信华辰成为DAMA数据管理知识体系授权培训基地

    2021年4月,亿信华辰被正式授权为DAMA中国(国际数据管理协会-中国分会)数据管理知识体系培训基地,成为DAMA在数据管理领域专业人……查看详情

    发布时间:2021.06.22来源:亿信华辰浏览量:74次

  • 企业应该将数据治理作为加速数字化转型的催化剂

    企业应该将数据治理作为加速数字化转型的催化剂

    随着许多业务系统和应用程序(包括采购,呼叫中心交互,网站访问,移动应用程序使用以及越来越多的物联网传感器和设备)产生的大量客户数据,应该……查看详情

    发布时间:2019.07.04来源:知乎浏览量:53次

  • 大数据资产管理总体框架概述

    大数据资产管理总体框架概述

    随着大数据时代的来临,对数据的重视提到了前所未有的高度,“数据即资产”已经被广泛认可。数据就像企业的根基,是各企业尚待发掘的财富,即将被……查看详情

    发布时间:2019.02.21来源:知乎浏览量:168次

  • 构建有效的数据科学团队

    构建有效的数据科学团队

    随着数据科学和人工智能几乎进入阳光下的每个行业,建立一个能够建立成功的AI项目的团队的挑战也是如此。对统计学家,程序员和沟通者完美融合的……查看详情

    发布时间:2019.03.15来源:亿信华辰浏览量:80次

  • 元数据管理是什么?元数据管理的意义

    元数据管理是什么?元数据管理的意义

    元数据管理是数据治理工作是重中之重,为什么企业内部的数据质量总是不高?其实只要有数据存在就有数据质量问题存在。但是也可以通过一个有效的管……查看详情

    发布时间:2021.08.11来源:亿信华辰数据治理知识库浏览量:752次

  • 数据治理的价值体系包括哪些方面?

    数据治理的价值体系包括哪些方面?

    数据治理的目标是通过对数据资产的有效管控持续创造价值,价值域通过对治理结果的有效整理,通过构建具体化的数据产品,实现上述的价值创造。那么……查看详情

    发布时间:2022.05.05来源:小亿浏览量:218次

  • 快速理解数据仓库、数据湖、数据工厂、数据中台

    快速理解数据仓库、数据湖、数据工厂、数据中台

    数据生产的整个链条中,对于如何筑湖、如何选址建厂、按什么工序加工、以及如何配送,这是技术部门的事情,而“数据半成品”的沉淀和积累,却不是……查看详情

    发布时间:2021.04.13来源:亿信数据治理知识库浏览量:119次

  • 数据交换如何“主动出击”?

    数据交换如何“主动出击”?

    传统的数据交换,一般说来是用户根据自身的数据抽取需求,配置好相关的设置,定义好数据抽取时间来进行数据交换。这是一种被动式的数据交换,如果……查看详情

    发布时间:2020.09.27来源:头条浏览量:67次

  • 用于增强数据治理和法规遵从性的容器

    用于增强数据治理和法规遵从性的容器

    在今天分散的存储基础架构中,审计人员如何评估企业数据的使用?总之,很难!……查看详情

    发布时间:2019.03.11来源:亿信华辰浏览量:81次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议