数栈:为数据治理而生

发布时间:2019.01.04来源:NinGoo浏览量:249次标签:数据治理


2018年5月21日,中国银保监会印发《银行业金融机构数据治理指引的通知》(银保监发〔2018〕22号),新规从征求意见到正式稿落地仅仅2个月时间,后续监管政策补短板会加快。金融行业对于数据治理的迫切需求,在指引中,明确提出了数据治理架构、数据管理、数据质量控制、数据价值实现等问题,是大数据发展到一定程度的必然结果。

从业务数据化到数据业务化,大数据已经越来越多的成为企业的资产,但在发展过程中,数据来源繁多、数据口径不一、数据质量缺乏管控、数据安全存在隐患,这些都是阻碍企业实现数字化转型和数据驱动的问题,如何有效和高效的解决这些问题,既体现了企业数字化转型的决心,也体现了企业数据驱动的能力。

互联网的发展过程,实际上就是不断业务数据化的过程,通过将人的衣食住行等行为都在线化,从电商、到外卖、到租房、到共享出行,每一个快速成长的互联网业务,都是将各种业务场景在线化的过程。在线化是实现数据化的前提,数据化是在线化的必然结果。这也是为什么云计算和大数据等基础技术的突破必然会在互联网企业出现并壮大的原因。

2009年,阿里巴巴就设立了CDO岗位,担任第一任CDO的,正是后来成为阿里巴巴第二任CEO的陆兆禧。这比银保监会在这次指引中“提出可结合实际情况设立首席数据官”的数据治理架构提前了近十年。当然,阿里当初设立CDO并不仅仅为了数据治理,更是为了数据价值实现,也就是数据业务化。2009年阿里在数据领域发生了三件大事,设立CDO只是其一,另外两件分别是自研大数据计算平台和以数据为资产的阿里小贷业务创新。

阿里自研的大数据平台,实际上分为两层:底层的计算存储引擎MaxCompute和上层的开发套件Dataworks。计算存储引擎是为了解决EB级的数据计算能力,开发套件则是为了提升数据开发和数据治理的效率。结合集团业务的不断发展,开发套件的功能逐渐丰富,成为数据中台非常重要的生产力工具。经过八年内部实践,2015年在阿里云内部开启了“数加“项目,在2016年初将这个能力通过阿里云公共云对外开放。

从计算和存储能力上来讲,开源的Hadoop生态在过去十年也是飞速发展,可以满足大多数企业对于PB甚至EB级数据计算能力的需求。但在数据开发和数据治理方面,开源生态距离数加这样经过大型互联网企业实践验证的产品还是欠缺的。正是提前看到了这个问题,袋鼠云从创业开始,就把产品定位在了数据中台PaaS方向。从去年的数栈1.0解决了开发套件的核心功能,到今年的数栈2.0全面丰富了数据地图(数据管理)、数据模型、数据质量、数据API、标签工厂等一系列数据治理和数据应用引擎工具,正式打造成了一站式企业级数据中台PaaS。

前几天有个数栈的天使客户,在数栈产品经理只去过两次做现场交流的情况下,基于数栈完成了多个数据项目的开发,从模型分层到表的命名规范,从任务调度到补数据运维,非常流畅的完成了数据全生命周期的管理。客户反馈说之前基于开源的Hadoop需要一天的开发任务,基于数栈只需要30分钟就能完成。所谓生产力工具,为客户提供的价值就在于此。

但是,数栈的目标不仅是提升数据开发的效率。更重要的是希望能够借助阿里多年的大数据经验沉淀,帮助企业客户进一步提升数据治理的能力。从这两年接触的很多客户的实际情况来看,数据治理一直是个老大难的问题。首先,很多企业客户还没有实现全域的数据集中。经过多年的企业IT信息化建设,来自多个供应商的业务系统像烟囱一样林立,相互之间的数据标准不一,难以打通。有些企业甚至都还没有数据仓库,业务数据留存在各个业务数据库中,通过DBLink等方式在不同系统之间实现部分数据共享。有些企业虽然建立了数据仓库,但只是将领导关系的部分KPI指标相关的数据集中到了数据仓库中进行分析处理。数据源的多样性和分散性,给企业的数据治理带来了很高的门槛。

袋鼠云数据中台的理念认为,企业首先应当建立集中统一的数据中台,将全域的数据都同步到统一的数据中台,基于数中台来进行数据治理,事半功倍。数据存储统一,可以在后续的数据治理和数据业务化的过程中实现数据不搬动,降低数据的处理成本;数据计算统一,可以实现基础元数据的自动维护,为数据治理打下最坚实的基础。

在数栈的产品体系中,基于开源Spark和Flink实现的数据计算引擎,可以提供PB级的统一数据计算和存储的能力,当然,数栈也可以兼容企业现有的Hadoop平台,包括Cloudera、星环等。数栈的开发套件提供了统一的ETL任务开发和调度运维的入口,通过这个入口的元数据自动采集和维护,在数据地图模块中为数据管理提供了准确实时的基础数据,在此之上结合企业的现状调研和咨询,可以构建企业级的数据资产类目体系和数据安全体系;同时,通过数据质量模块,可以针对ETL任务实现数据处理的质量管控,提前发现并预警数据质量问题。然后通过数据API和标签工场,为上层丰富的数据应用价值实现提供引擎能力。

从数据同步、到数据开发、到数据管理、到数据质量控制、到数据应用价值实现,数栈在产品层面对于指引都能提供支撑,这是将多年大数据实践经验产品化的结果。数栈,就是为数据治理而生的企业级一站式数据中台PaaS。


(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 言简意赅带你探究大数据治理的真面目

    言简意赅带你探究大数据治理的真面目

    在“十四五”规划和2035远景目标中,治理一词共出现了119次,这一数字是惊人的。数据治理已然成为整个社会转型的重要赛道,数字经济时代下……查看详情

    发布时间:2022.01.23来源:小亿浏览量:187次

  • 常见的主数据管理问题

    常见的主数据管理问题

    主数据管理,包括不仅仅是硬件和软件,还是将数据作为重要资产管理的思想和办法,是指一整套的用于生成和维护企业主数据的规范、技术和方案,以保……查看详情

    发布时间:2020.12.05来源:知乎浏览量:412次

  • 营造“三大环境” 让数据说话 靠数据管理

    营造“三大环境” 让数据说话 靠数据管理

    《中国市场监管研究》:最近,江苏省工商局陆续发布消费环境指数、竞争环境指数、准入环境指数的研究报告,从领导批示、专家意见、社会反应来看,……查看详情

    发布时间:2019.02.15来源:数据管理浏览量:168次

  • 企业数据质量是数字化时代企业的重要资产

    企业数据质量是数字化时代企业的重要资产

    大数据的概念正在进一步渗透到各个行业与领域当中,随着企业业务增长和规模扩大,以及伴随着信息技术和相关基础设施的不断完善,在短短的几年内,……查看详情

    发布时间:2020.01.10来源:知乎浏览量:207次

  • 数据质量六大评价标准是什么

    数据质量六大评价标准是什么

    随着大数据时代的带来,数据的应用也日趋繁茂,越来越多的应用和服务都基于数据而建立,数据的重要性不言而喻。而且,数据质量是数据分析和数据挖……查看详情

    发布时间:2022.03.28来源:小亿浏览量:6665次

  • 数据科学岗位将在未来5年内重新洗牌,你准备好转型了吗?

    数据科学岗位将在未来5年内重新洗牌,你准备好转型了吗?

    计算器的工作曾经由人来做;网站管理员曾经是热门职业;中层管理人员也曾配备过秘书。技术的迭代变革了一批又一批职业,数据科学家也不会例外…………查看详情

    发布时间:2019.03.07来源:亿信华辰浏览量:183次

  • 深圳运用大数据治理城市经验被点赞

    深圳运用大数据治理城市经验被点赞

    央视《新闻联播》报道了深圳运用大数据提升城市治理现代化水平方面的新探索。报道指出,随着“数字政府”建设的不断推进,深圳的政务创新也渐入佳……查看详情

    发布时间:2018.09.25来源:深视新闻浏览量:154次

  • 数据治理工具那么多,如何选择适合自己企业的呢?

    数据治理工具那么多,如何选择适合自己企业的呢?

    随着互联网技术的不断发展,人们获取、收集信息的渠道也越来越多样化,各种搜索引擎、通讯工具、社交网站等普及应用,使得数据信息呈迅速增长趋势……查看详情

    发布时间:2019.07.17来源:知乎浏览量:192次

  • 数据标准管理工具最全介绍:背景、功能和案例都在这!

    数据标准管理工具最全介绍:背景、功能和案例都在这!

    数据标准管理工具作为企业开展数据管控的抓手,需要把数据管理制度办法中建立的各项工作流在信息化系统中实现,避免线下流程,这就需要工具能支持……查看详情

    发布时间:2021.08.03来源:亿信数据治理知识库浏览量:1214次

  • 新零售变革:数据管理提升购物体验

    新零售变革:数据管理提升购物体验

    随着新零售时代的到来,线上线下的区隔开始逐渐变得模糊,两者融合成为大势所趋。零售行业的营销模式也开始逐渐从以产品为中心向以用户为中心转移……查看详情

    发布时间:2019.01.11来源:亿信华辰浏览量:177次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议