2019年的数据前景如何

发布时间:2019.01.07来源:数据治理浏览量:150次标签:数据治理

 这三个与数据相关的趋势今年值得关注。

公司喜欢技术堆栈所有层的“即服务”模式,从云供应商提供的基础架构到完整的SaaS应用程序。但是,在数据方面,公司仍然采用IT拥有和IT控制模式运行,数据用户正在等待轮到他们。

今年,我们将看到开源技术,方法和云服务的不断采用,使公司更接近数据的“即服务”模式,使他们的数据科学家,数据消费者和数据工程师比永远。

趋势#1:Apache Arrow和Arrow Flight的崛起

在过去的三年中,出现了一种名为Apache Arrow的内存分析新标准。Arrow不是应用程序或运行时进程。相反,Arrow是一个开源项目,它指定用于处理数据的柱状内存格式以及对箭头柱状数据格式执行低级操作的软件库。

今天,Arrow用于许多类型的软件应用程序,包括SQL引擎(例如Dremio的Sabot),数据框架(例如,Python pandas),分布式处理(例如Spark),数据库(例如InfluxDB),机器学习环境(例如RAPIDS)和几个可视化系统。在过去六个月中,Arrow的采用率急剧上升,仅在Python社区就有超过100万的下载量。

这种采用的原因很明显:分析应用程序的开发人员希望最大限度地提高系统效率,以改善用户体验并降低在云运行时环境中运行这些系统的成本。通过转向基于箭头的架构,开发人员通过大约100倍的速度和效率改进并不罕见。

2019年,我们将继续在更多软件应用程序中采用Arrow,包括机器学习,数据科学,统计软件包和商业智能。部分驱动器来自速度和效率的好处,但采用也是由实现Arrow实现免费交换数据的系统的能力所驱动。当两个系统都实现Arrow时,可以在不对数据进行序列化和反序列化的情况下进行数据交换,而无需进行不必要的复制,从而释放CPU,GPU和内存资源以执行更重要的工作。

这将我们带到Arrow Flight,这是应用程序与Arrow交互的新方式。您可以将Flight视为ODBC / JDBC的替代方案,以用于内存分析。现在我们已经建立了一种在内存中表示数据的方法,Flight定义了一种在系统之间交换数据的标准化方法。

例如,对于与Dremio(我共同创建的公司)交互的客户端应用程序,今天我们将数据反序列化为一个通用结构。当Tableau通过ODBC查询Dremio时,我们处理查询并将结果作为箭头缓冲区一直流式传输到ODBC客户端,然后再序列化为ODBC期望的基于单元的协议。一旦Arrow Flight一般可用,实现Arrow的应用程序就可以直接使用Arrow缓冲区。在我们的内部测试中,我们观察到这种方法与ODBC / JDBC接口相比,效率提高了10倍-100倍。

趋势2:数据即服务

我们现在已经进入AWS时代已经10年了,它始于按小时计费的按需基础架构。DaaS已经在整个堆栈中向上移动,包括完整的应用程序和介于两者之间的每个构建块。现在,公司希望为他们的数据提供同样的“按需”体验,即时满足个人用户的特定需求,具有出色的性能,易用性,与他们喜爱的工具的兼容性,而且无需等待数月的IT。

数据即服务包括几个不同的功能:

数据目录:全面的数据资产清单,使数据使用者可以轻松地跨不同系统和来源查找数据,以及以对业务有意义的方式描述数据。

数据管理:用于过滤,混合和转换特定作业的数据的工具。可以将可重用数据集添加到数据目录中以供其他用户发现。某些部署可以在虚拟上下文中实现数据管理,以最小化数据副本。

数据沿袭:在从不同系统访问数据集并创建新数据集时,跟踪数据集的出处和沿袭的能力。


数据加速:数据加速允许快速,交互式访问大型数据集。数据消费者需要以思维的速度工作。如果查询需要几分钟才能处理,则用户无法有效地执行其工作。


数据虚拟化:企业数据存在于许多不同的系统中,包括数据仓库,数据湖泊和操作系统。数据即服务提供了一种统一的原位访问数据的方法,无需将所有数据复制到新的孤岛中。


SQL执行: SQL仍然是数据分析的事实标准。每个BI工具和每个数据科学平台都支持SQL作为从不同来源访问数据的主要方法。数据即服务提供SQL作为这些工具和系统的接口。


公司现在通过结合这些功能来提高数据消费者的生产力,从而构建数据即服务。利用开源项目,开放标准和云服务,公司将在关键业务线上向数据消费者提供他们的第一次数据即服务迭代。

趋势#3:云数据湖

随着公司重新升级AWS,Azure和Google的云服务平台,数据分析往往是最具挑战性的过渡。每个供应商都为数据仓库和数据集市提供了一种替代方案:AWS上的Redshift,Azure上的SQL数据仓库和Google上的BigQuery。还有独立产品,如Snowflake,支持多个云平台。

除数据仓库外,公司还可以选择其数据科学工作负载,包括每个云供应商的本地Spark产品,以及来自不同供应商(如Databricks)的一系列数据科学平台。

云数据湖将成为云数据仓库和云数据科学环境基础的通用平台。随着公司将其分析工作负载迁移到云,云数据湖就在哪里:

数据首先以原始形式存在,包括遗留应用程序和流数据 根据不同需求对数据进行转换,丰富和混合 数据用于数据科学用例 数据被加载到云数据仓库中


公司正在使用多种技术构建云数据湖:AWS上的S3,Azure上的ADLS和用于存储数据的Google云存储。对于数据处理,公司使用多种选项,包括Spark,Hive,AWS Glue,Azure Data Factory和Google Cloud Dataflow。其他功能将继续出现,例如与Kafka等流媒体平台以及数据目录和数据准备工具更紧密的集成。即使是最基本的形式,云数据湖也将成为迁移到云的公司的基础系统。


 

(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 如何保证数据质量?针对性业务方面的数据质量如何提升

    如何保证数据质量?针对性业务方面的数据质量如何提升

    平时企业都会处理数据质量的问题,越来越能够懂得数据库整套系统的运行模式和模型概念,深深觉得数据挖掘的本质其实不仅仅是从海量的数据中发现有……查看详情

    发布时间:2019.11.15来源:知乎浏览量:178次

  • 建设数据中台,企业数字化转型的最佳入口

    建设数据中台,企业数字化转型的最佳入口

    以数据驱动的数字化,将帮助企业全面了解用户的需求变化,也能为企业在营销、产品、业务等各个环节提供支撑,进一步提升企业的经营效率。 但在开……查看详情

    发布时间:2021.01.22来源:头条浏览量:173次

  • 数据指标体系和数据治理的管理

    数据指标体系和数据治理的管理

    我们提到过为什么要搭建指标体系,相信大家在看数据相关招聘岗位简介的时候,也经常看到有关搭建指标体系的要求,因此这里简单的给出两点做指标体……查看详情

    发布时间:2019.12.06来源:CSDN浏览量:165次

  • 医疗保健委员会治理的最佳实践是什么?

    医疗保健委员会治理的最佳实践是什么?

    治理这个词源于拉丁语gubernare,意思是指导或统治。医疗保健委员会的治理正在发展,因为技术使医院和其他医疗机构能够访问越来越多的数……查看详情

    发布时间:2019.03.14来源:亿信华辰浏览量:158次

  • 大数据时代传统工业企业的转型之路

    大数据时代传统工业企业的转型之路

    基于互联网与大数据的企业商业模式创新,使得传统的生产、流通和消费等环节呈现出前所未有的“信息化”、“扁平化”和“无界化”。借助于大数据的……查看详情

    发布时间:2019.03.27来源:亿信华辰浏览量:131次

  • 新的独立全球分析师研究强调数据治理挑战

    新的独立全球分析师研究强调数据治理挑战

    佛罗里达州奥兰多,10月14日-交付 分析的未来,Pentaho的,一个日立数据系统公司今天宣布,由Forrester咨询公司进行的2……查看详情

    发布时间:2019.03.05来源:亿信华辰浏览量:139次

  • 数据治理、数据管理、数据管控

    数据治理、数据管理、数据管控

    数据治理、数据管理、数据管控这三个名词在一定程度上的确是有所重叠的,容易混为一谈,所以就造成了在实际使用中,经常将这三个词语“混着用”、……查看详情

    发布时间:2021.03.06来源:知乎浏览量:199次

  • 大数据应用与治理

    大数据应用与治理

    不可否认的是,大数据产业很快就要迎来自己的爆发期。经过几年基础建设的培育,技术层面已基本可以满足相关应用,所以行业人士也普遍达成共识,接……查看详情

    发布时间:2019.03.08来源:亿信华辰浏览量:159次

  • 一文透露银行业的数据治理该不该做,又怎么做?

    一文透露银行业的数据治理该不该做,又怎么做?

    小宋最近同学会,一个大学同学就职银行信息科技部门,听说小宋也在一家大数据公司便拉起小宋的手要和她好好掰扯掰扯一下银行业的数据治理了。银行……查看详情

    发布时间:2020.07.29来源:今日头条浏览量:131次

  • 企业如何快速启动数据治理项目?

    企业如何快速启动数据治理项目?

    大数据时代已经到来,各个政府机关,大中小企业都越来越重视数据的价值。然而在企业的运转过程中,却经常会产生各种各样的数据问题。……查看详情

    发布时间:2019.08.15来源:知乎浏览量:140次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议