2019年的数据前景如何

发布时间:2019.01.07来源:数据治理浏览量:91次标签:数据治理

 这三个与数据相关的趋势今年值得关注。

公司喜欢技术堆栈所有层的“即服务”模式,从云供应商提供的基础架构到完整的SaaS应用程序。但是,在数据方面,公司仍然采用IT拥有和IT控制模式运行,数据用户正在等待轮到他们。

今年,我们将看到开源技术,方法和云服务的不断采用,使公司更接近数据的“即服务”模式,使他们的数据科学家,数据消费者和数据工程师比永远。

趋势#1:Apache Arrow和Arrow Flight的崛起

在过去的三年中,出现了一种名为Apache Arrow的内存分析新标准。Arrow不是应用程序或运行时进程。相反,Arrow是一个开源项目,它指定用于处理数据的柱状内存格式以及对箭头柱状数据格式执行低级操作的软件库。

今天,Arrow用于许多类型的软件应用程序,包括SQL引擎(例如Dremio的Sabot),数据框架(例如,Python pandas),分布式处理(例如Spark),数据库(例如InfluxDB),机器学习环境(例如RAPIDS)和几个可视化系统。在过去六个月中,Arrow的采用率急剧上升,仅在Python社区就有超过100万的下载量。

这种采用的原因很明显:分析应用程序的开发人员希望最大限度地提高系统效率,以改善用户体验并降低在云运行时环境中运行这些系统的成本。通过转向基于箭头的架构,开发人员通过大约100倍的速度和效率改进并不罕见。

2019年,我们将继续在更多软件应用程序中采用Arrow,包括机器学习,数据科学,统计软件包和商业智能。部分驱动器来自速度和效率的好处,但采用也是由实现Arrow实现免费交换数据的系统的能力所驱动。当两个系统都实现Arrow时,可以在不对数据进行序列化和反序列化的情况下进行数据交换,而无需进行不必要的复制,从而释放CPU,GPU和内存资源以执行更重要的工作。

这将我们带到Arrow Flight,这是应用程序与Arrow交互的新方式。您可以将Flight视为ODBC / JDBC的替代方案,以用于内存分析。现在我们已经建立了一种在内存中表示数据的方法,Flight定义了一种在系统之间交换数据的标准化方法。

例如,对于与Dremio(我共同创建的公司)交互的客户端应用程序,今天我们将数据反序列化为一个通用结构。当Tableau通过ODBC查询Dremio时,我们处理查询并将结果作为箭头缓冲区一直流式传输到ODBC客户端,然后再序列化为ODBC期望的基于单元的协议。一旦Arrow Flight一般可用,实现Arrow的应用程序就可以直接使用Arrow缓冲区。在我们的内部测试中,我们观察到这种方法与ODBC / JDBC接口相比,效率提高了10倍-100倍。

趋势2:数据即服务

我们现在已经进入AWS时代已经10年了,它始于按小时计费的按需基础架构。DaaS已经在整个堆栈中向上移动,包括完整的应用程序和介于两者之间的每个构建块。现在,公司希望为他们的数据提供同样的“按需”体验,即时满足个人用户的特定需求,具有出色的性能,易用性,与他们喜爱的工具的兼容性,而且无需等待数月的IT。

数据即服务包括几个不同的功能:

数据目录:全面的数据资产清单,使数据使用者可以轻松地跨不同系统和来源查找数据,以及以对业务有意义的方式描述数据。

数据管理:用于过滤,混合和转换特定作业的数据的工具。可以将可重用数据集添加到数据目录中以供其他用户发现。某些部署可以在虚拟上下文中实现数据管理,以最小化数据副本。

数据沿袭:在从不同系统访问数据集并创建新数据集时,跟踪数据集的出处和沿袭的能力。


数据加速:数据加速允许快速,交互式访问大型数据集。数据消费者需要以思维的速度工作。如果查询需要几分钟才能处理,则用户无法有效地执行其工作。


数据虚拟化:企业数据存在于许多不同的系统中,包括数据仓库,数据湖泊和操作系统。数据即服务提供了一种统一的原位访问数据的方法,无需将所有数据复制到新的孤岛中。


SQL执行: SQL仍然是数据分析的事实标准。每个BI工具和每个数据科学平台都支持SQL作为从不同来源访问数据的主要方法。数据即服务提供SQL作为这些工具和系统的接口。


公司现在通过结合这些功能来提高数据消费者的生产力,从而构建数据即服务。利用开源项目,开放标准和云服务,公司将在关键业务线上向数据消费者提供他们的第一次数据即服务迭代。

趋势#3:云数据湖

随着公司重新升级AWS,Azure和Google的云服务平台,数据分析往往是最具挑战性的过渡。每个供应商都为数据仓库和数据集市提供了一种替代方案:AWS上的Redshift,Azure上的SQL数据仓库和Google上的BigQuery。还有独立产品,如Snowflake,支持多个云平台。

除数据仓库外,公司还可以选择其数据科学工作负载,包括每个云供应商的本地Spark产品,以及来自不同供应商(如Databricks)的一系列数据科学平台。

云数据湖将成为云数据仓库和云数据科学环境基础的通用平台。随着公司将其分析工作负载迁移到云,云数据湖就在哪里:

数据首先以原始形式存在,包括遗留应用程序和流数据 根据不同需求对数据进行转换,丰富和混合 数据用于数据科学用例 数据被加载到云数据仓库中


公司正在使用多种技术构建云数据湖:AWS上的S3,Azure上的ADLS和用于存储数据的Google云存储。对于数据处理,公司使用多种选项,包括Spark,Hive,AWS Glue,Azure Data Factory和Google Cloud Dataflow。其他功能将继续出现,例如与Kafka等流媒体平台以及数据目录和数据准备工具更紧密的集成。即使是最基本的形式,云数据湖也将成为迁移到云的公司的基础系统。


 

(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 元数据管理是什么?元数据管理的意义

    元数据管理是什么?元数据管理的意义

    元数据管理是数据治理工作是重中之重,为什么企业内部的数据质量总是不高?其实只要有数据存在就有数据质量问题存在。但是也可以通过一个有效的管……查看详情

    发布时间:2021.08.11来源:亿信华辰数据治理知识库浏览量:835次

  • 为数据管理/数据质量/问题分析提供资金

    为数据管理/数据质量/问题分析提供资金

    大多数具有正式数据治理工作的组织都对正在进行的数据管理工作给予了高度关注,解决了利益相关者之间发生自然冲突和/或数据质量工作时出现的问题……查看详情

    发布时间:2019.03.19来源:亿信华辰浏览量:75次

  • 浅析数据治理与数据安全治理的概念差异

    浅析数据治理与数据安全治理的概念差异

    当我们谈到数据资产的时候,想到最多的就是数据治理,接下来就是数据安全治理,那么这两者之间有什么区别和差异呢?……查看详情

    发布时间:2019.08.14来源:知乎浏览量:101次

  • 用大数据守护绿水青山,铸就“智慧环保”

    用大数据守护绿水青山,铸就“智慧环保”

    为了打破数据壁垒,基于亿信华辰的睿治数据治理平台和实时大数据平台PetaBase-s搭建A市生态环境大数据管理平台。……查看详情

    发布时间:2021.05.07来源:亿信华辰浏览量:63次

  • 数据治理概述

    数据治理概述

    每天,大学的数据都会被评估,创建,使用,存储,存档,报告或删除。数据治理为罗切斯特的这些信息的定义,交换,完整性和安全性设定了标准和协议……查看详情

    发布时间:2018.11.26来源:数据治理浏览量:168次

  • 元数据管理流程和方法是怎样的

    元数据管理流程和方法是怎样的

    大数据环境中,如果企业不通过元数据管理把多种复杂的信息管理起来,很难做到信息的有效利用。Gartner在研究报告里明确指出,“元数据管理……查看详情

    发布时间:2022.03.21来源:小亿浏览量:440次

  • 企业适用的数据标准管理平台

    企业适用的数据标准管理平台

    数据标准化的过程其实就是在数据整合平台实现数据标准,并将各个系统产生的数据通过清洗、转换加载到整合平台的数据模型中,实现数据标准化的过程……查看详情

    发布时间:2020.05.08来源:知乎浏览量:109次

  • 一个平台搞定数据治理,助力全国统一大市场建设

    一个平台搞定数据治理,助力全国统一大市场建设

    建立健全全国性技术交易市场,完善知识产权评估与交易机制,推动各地技术交易市场互联互通。完善科技资源共享服务体系,鼓励不同区域之间科技信息……查看详情

    发布时间:2022.06.02来源:小亿浏览量:105次

  • 什么是cgeit?对经验丰富的IT治理专业人员的认证

    什么是cgeit?对经验丰富的IT治理专业人员的认证

    cgeit是一个供应商中立的认证,为负责管理it企业治理的IT专业人士设计,以验证他们在该领域的技能。……查看详情

    发布时间:2019.01.09来源:亿信华辰浏览量:98次

  • 怎样避免数据治理里面的坑?

    怎样避免数据治理里面的坑?

    数据治理是一项长期而繁杂的工作,很多时候大家都为如何做好数据治理而感到困惑,甚至很多时候对此失去了信心。怎么避免数据治理这些问题?……查看详情

    发布时间:2018.12.10来源:CSDN浏览量:94次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议