2019年的数据前景如何

发布时间:2019.01.07来源:数据治理浏览量:133次标签:数据治理

 这三个与数据相关的趋势今年值得关注。

公司喜欢技术堆栈所有层的“即服务”模式,从云供应商提供的基础架构到完整的SaaS应用程序。但是,在数据方面,公司仍然采用IT拥有和IT控制模式运行,数据用户正在等待轮到他们。

今年,我们将看到开源技术,方法和云服务的不断采用,使公司更接近数据的“即服务”模式,使他们的数据科学家,数据消费者和数据工程师比永远。

趋势#1:Apache Arrow和Arrow Flight的崛起

在过去的三年中,出现了一种名为Apache Arrow的内存分析新标准。Arrow不是应用程序或运行时进程。相反,Arrow是一个开源项目,它指定用于处理数据的柱状内存格式以及对箭头柱状数据格式执行低级操作的软件库。

今天,Arrow用于许多类型的软件应用程序,包括SQL引擎(例如Dremio的Sabot),数据框架(例如,Python pandas),分布式处理(例如Spark),数据库(例如InfluxDB),机器学习环境(例如RAPIDS)和几个可视化系统。在过去六个月中,Arrow的采用率急剧上升,仅在Python社区就有超过100万的下载量。

这种采用的原因很明显:分析应用程序的开发人员希望最大限度地提高系统效率,以改善用户体验并降低在云运行时环境中运行这些系统的成本。通过转向基于箭头的架构,开发人员通过大约100倍的速度和效率改进并不罕见。

2019年,我们将继续在更多软件应用程序中采用Arrow,包括机器学习,数据科学,统计软件包和商业智能。部分驱动器来自速度和效率的好处,但采用也是由实现Arrow实现免费交换数据的系统的能力所驱动。当两个系统都实现Arrow时,可以在不对数据进行序列化和反序列化的情况下进行数据交换,而无需进行不必要的复制,从而释放CPU,GPU和内存资源以执行更重要的工作。

这将我们带到Arrow Flight,这是应用程序与Arrow交互的新方式。您可以将Flight视为ODBC / JDBC的替代方案,以用于内存分析。现在我们已经建立了一种在内存中表示数据的方法,Flight定义了一种在系统之间交换数据的标准化方法。

例如,对于与Dremio(我共同创建的公司)交互的客户端应用程序,今天我们将数据反序列化为一个通用结构。当Tableau通过ODBC查询Dremio时,我们处理查询并将结果作为箭头缓冲区一直流式传输到ODBC客户端,然后再序列化为ODBC期望的基于单元的协议。一旦Arrow Flight一般可用,实现Arrow的应用程序就可以直接使用Arrow缓冲区。在我们的内部测试中,我们观察到这种方法与ODBC / JDBC接口相比,效率提高了10倍-100倍。

趋势2:数据即服务

我们现在已经进入AWS时代已经10年了,它始于按小时计费的按需基础架构。DaaS已经在整个堆栈中向上移动,包括完整的应用程序和介于两者之间的每个构建块。现在,公司希望为他们的数据提供同样的“按需”体验,即时满足个人用户的特定需求,具有出色的性能,易用性,与他们喜爱的工具的兼容性,而且无需等待数月的IT。

数据即服务包括几个不同的功能:

数据目录:全面的数据资产清单,使数据使用者可以轻松地跨不同系统和来源查找数据,以及以对业务有意义的方式描述数据。

数据管理:用于过滤,混合和转换特定作业的数据的工具。可以将可重用数据集添加到数据目录中以供其他用户发现。某些部署可以在虚拟上下文中实现数据管理,以最小化数据副本。

数据沿袭:在从不同系统访问数据集并创建新数据集时,跟踪数据集的出处和沿袭的能力。


数据加速:数据加速允许快速,交互式访问大型数据集。数据消费者需要以思维的速度工作。如果查询需要几分钟才能处理,则用户无法有效地执行其工作。


数据虚拟化:企业数据存在于许多不同的系统中,包括数据仓库,数据湖泊和操作系统。数据即服务提供了一种统一的原位访问数据的方法,无需将所有数据复制到新的孤岛中。


SQL执行: SQL仍然是数据分析的事实标准。每个BI工具和每个数据科学平台都支持SQL作为从不同来源访问数据的主要方法。数据即服务提供SQL作为这些工具和系统的接口。


公司现在通过结合这些功能来提高数据消费者的生产力,从而构建数据即服务。利用开源项目,开放标准和云服务,公司将在关键业务线上向数据消费者提供他们的第一次数据即服务迭代。

趋势#3:云数据湖

随着公司重新升级AWS,Azure和Google的云服务平台,数据分析往往是最具挑战性的过渡。每个供应商都为数据仓库和数据集市提供了一种替代方案:AWS上的Redshift,Azure上的SQL数据仓库和Google上的BigQuery。还有独立产品,如Snowflake,支持多个云平台。

除数据仓库外,公司还可以选择其数据科学工作负载,包括每个云供应商的本地Spark产品,以及来自不同供应商(如Databricks)的一系列数据科学平台。

云数据湖将成为云数据仓库和云数据科学环境基础的通用平台。随着公司将其分析工作负载迁移到云,云数据湖就在哪里:

数据首先以原始形式存在,包括遗留应用程序和流数据 根据不同需求对数据进行转换,丰富和混合 数据用于数据科学用例 数据被加载到云数据仓库中


公司正在使用多种技术构建云数据湖:AWS上的S3,Azure上的ADLS和用于存储数据的Google云存储。对于数据处理,公司使用多种选项,包括Spark,Hive,AWS Glue,Azure Data Factory和Google Cloud Dataflow。其他功能将继续出现,例如与Kafka等流媒体平台以及数据目录和数据准备工具更紧密的集成。即使是最基本的形式,云数据湖也将成为迁移到云的公司的基础系统。


 

(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 什么是数据治理?

    什么是数据治理?

    数据治理是一个包含可用性,适用性,完整性和安全性的四向框架。它是由使用技术的利益相关者使用的一组流程,以确保管理和保护重要和关键数据。它……查看详情

    发布时间:2018.11.16来源:互联网浏览量:138次

  • 数据中台如何进行数据治理

    数据中台如何进行数据治理

    数据中台可通过数据需求、数据质量、元数据管理等领域加强数据治理。……查看详情

    发布时间:2020.04.01来源:知乎浏览量:213次

  • 大数据在媒体行业的应用——《企业大数据实践路线》之二

    大数据在媒体行业的应用——《企业大数据实践路线》之二

    新闻工作者先产生一个内容,形式可以是文字的、视频的等,无论你是编辑还是记者或者说是美编,或电视台的采编人员等等所生产的内容都会存入到业务……查看详情

    发布时间:2019.02.25来源:亿信华辰浏览量:100次

  • 大数据与人工智能有何区别以及哪个技术更好

    大数据与人工智能有何区别以及哪个技术更好

    要想了解大数据与人工智能的区别,首先要从认知大数据和人工智能的概念开始。……查看详情

    发布时间:2019.03.06来源:亿信华辰浏览量:90次

  • 数据管理能力成熟度评估模型

    数据管理能力成熟度评估模型

    数据管理能力成熟度评估模型,中华人民共和国国家质量监督检验检疫总局,中国国家标准化管理委员会发布。……查看详情

    发布时间:2019.09.02来源:GB/T36073—2018浏览量:389次

  • 试论加强数据治理能力的重要性

    试论加强数据治理能力的重要性

    网络信息资源,是指所有以电子数据形式存储在信息光、磁等非纸质的文字、图像、声音、动画等多种形式的载体中,并通过网络通信、计算机或终端等方……查看详情

    发布时间:2018.12.05来源:网络传播杂志浏览量:132次

  • “数据法治化治理”应平衡安全与发展

    “数据法治化治理”应平衡安全与发展

    数据治理的法治化问题,即对数据治理主体的权利义务的设定及其关系模式之制度安排,应符合法治主义要求。“数据法治化治理”要特别关注合法性。……查看详情

    发布时间:2019.08.02来源:中国人民大学未来法治研究院浏览量:137次

  • 重构数据治理的必要性

    重构数据治理的必要性

    拥有管理良好的数据资产并不能确切的保证你的生产业务价值。所以你就需要必备跨不同组件和活动的整体视图。那么这个时候数据治理就显得尤为重要。……查看详情

    发布时间:2018.11.14来源:马克·皮科浏览量:128次

  • 多措并举提升银行业数据治理能力

    多措并举提升银行业数据治理能力

    数据治理是银行业高质量发展的必由之路,当前银行业的数字化转型面临一些挑战和不足,要从建立数据治理架构、统一数据标准、加强数据分析应用等方……查看详情

    发布时间:2019.11.29来源:知乎浏览量:132次

  • 数据治理成功的几大要素,你都做到了吗?

    数据治理成功的几大要素,你都做到了吗?

    数据治理(DG)是对企业中使用的数据的可用性,可用性,完整性和安全性的整体管理。健全的数据治理计划包括理事机构或理事会,一套明确的程序和……查看详情

    发布时间:2019.09.04来源:知乎浏览量:155次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议