2019年的数据前景如何

发布时间：2019.01.07来源：数据治理浏览量：133次标签：数据治理

这三个与数据相关的趋势今年值得关注。

公司喜欢技术堆栈所有层的“即服务”模式，从云供应商提供的基础架构到完整的SaaS应用程序。但是，在数据方面，公司仍然采用IT拥有和IT控制模式运行，数据用户正在等待轮到他们。

今年，我们将看到开源技术，方法和云服务的不断采用，使公司更接近数据的“即服务”模式，使他们的数据科学家，数据消费者和数据工程师比永远。

趋势＃1：Apache Arrow和Arrow Flight的崛起

在过去的三年中，出现了一种名为Apache Arrow的内存分析新标准。Arrow不是应用程序或运行时进程。相反，Arrow是一个开源项目，它指定用于处理数据的柱状内存格式以及对箭头柱状数据格式执行低级操作的软件库。

今天，Arrow用于许多类型的软件应用程序，包括SQL引擎（例如Dremio的Sabot），数据框架（例如，Python pandas），分布式处理（例如Spark），数据库（例如InfluxDB），机器学习环境（例如RAPIDS）和几个可视化系统。在过去六个月中，Arrow的采用率急剧上升，仅在Python社区就有超过100万的下载量。

这种采用的原因很明显：分析应用程序的开发人员希望最大限度地提高系统效率，以改善用户体验并降低在云运行时环境中运行这些系统的成本。通过转向基于箭头的架构，开发人员通过大约100倍的速度和效率改进并不罕见。

2019年，我们将继续在更多软件应用程序中采用Arrow，包括机器学习，数据科学，统计软件包和商业智能。部分驱动器来自速度和效率的好处，但采用也是由实现Arrow实现免费交换数据的系统的能力所驱动。当两个系统都实现Arrow时，可以在不对数据进行序列化和反序列化的情况下进行数据交换，而无需进行不必要的复制，从而释放CPU，GPU和内存资源以执行更重要的工作。

这将我们带到Arrow Flight，这是应用程序与Arrow交互的新方式。您可以将Flight视为ODBC / JDBC的替代方案，以用于内存分析。现在我们已经建立了一种在内存中表示数据的方法，Flight定义了一种在系统之间交换数据的标准化方法。

例如，对于与Dremio（我共同创建的公司）交互的客户端应用程序，今天我们将数据反序列化为一个通用结构。当Tableau通过ODBC查询Dremio时，我们处理查询并将结果作为箭头缓冲区一直流式传输到ODBC客户端，然后再序列化为ODBC期望的基于单元的协议。一旦Arrow Flight一般可用，实现Arrow的应用程序就可以直接使用Arrow缓冲区。在我们的内部测试中，我们观察到这种方法与ODBC / JDBC接口相比，效率提高了10倍-100倍。

趋势2：数据即服务

我们现在已经进入AWS时代已经10年了，它始于按小时计费的按需基础架构。DaaS已经在整个堆栈中向上移动，包括完整的应用程序和介于两者之间的每个构建块。现在，公司希望为他们的数据提供同样的“按需”体验，即时满足个人用户的特定需求，具有出色的性能，易用性，与他们喜爱的工具的兼容性，而且无需等待数月的IT。

数据即服务包括几个不同的功能：

数据目录：全面的数据资产清单，使数据使用者可以轻松地跨不同系统和来源查找数据，以及以对业务有意义的方式描述数据。

数据管理：用于过滤，混合和转换特定作业的数据的工具。可以将可重用数据集添加到数据目录中以供其他用户发现。某些部署可以在虚拟上下文中实现数据管理，以最小化数据副本。

数据沿袭：在从不同系统访问数据集并创建新数据集时，跟踪数据集的出处和沿袭的能力。

数据加速：数据加速允许快速，交互式访问大型数据集。数据消费者需要以思维的速度工作。如果查询需要几分钟才能处理，则用户无法有效地执行其工作。

数据虚拟化：企业数据存在于许多不同的系统中，包括数据仓库，数据湖泊和操作系统。数据即服务提供了一种统一的原位访问数据的方法，无需将所有数据复制到新的孤岛中。

SQL执行： SQL仍然是数据分析的事实标准。每个BI工具和每个数据科学平台都支持SQL作为从不同来源访问数据的主要方法。数据即服务提供SQL作为这些工具和系统的接口。

公司现在通过结合这些功能来提高数据消费者的生产力，从而构建数据即服务。利用开源项目，开放标准和云服务，公司将在关键业务线上向数据消费者提供他们的第一次数据即服务迭代。

趋势＃3：云数据湖

随着公司重新升级AWS，Azure和Google的云服务平台，数据分析往往是最具挑战性的过渡。每个供应商都为数据仓库和数据集市提供了一种替代方案：AWS上的Redshift，Azure上的SQL数据仓库和Google上的BigQuery。还有独立产品，如Snowflake，支持多个云平台。

除数据仓库外，公司还可以选择其数据科学工作负载，包括每个云供应商的本地Spark产品，以及来自不同供应商（如Databricks）的一系列数据科学平台。

云数据湖将成为云数据仓库和云数据科学环境基础的通用平台。随着公司将其分析工作负载迁移到云，云数据湖就在哪里：

数据首先以原始形式存在，包括遗留应用程序和流数据根据不同需求对数据进行转换，丰富和混合数据用于数据科学用例数据被加载到云数据仓库中

公司正在使用多种技术构建云数据湖：AWS上的S3，Azure上的ADLS和用于存储数据的Google云存储。对于数据处理，公司使用多种选项，包括Spark，Hive，AWS Glue，Azure Data Factory和Google Cloud Dataflow。其他功能将继续出现，例如与Kafka等流媒体平台以及数据目录和数据准备工具更紧密的集成。即使是最基本的形式，云数据湖也将成为迁移到云的公司的基础系统。

（部分内容来源网络，如有侵权请联系删除）

立即免费申请产品试用免费试用

睿治智能数据治理平台

数据采集

数据集成管理

数据交换管理

数据存储

实时计算存储

数据管理

元数据管理

数据标准管理

数据质量管理

主数据管理

数据服务

数据资产管理

大数据治理方案

大数据资产管理方案

主数据管理方案

数据标准化及质量管控方案

数据资产盘点方案

指标体系建设方案

数据仓库及商业智能方案

仓湖一体化数据中心建设方案