数据湖与数据仓库之间的桥梁

发布时间:2021.07.26来源:亿信华辰数据治理知识库浏览量:202次标签:数据治理

自Pentaho首席技术官James Dixon提出“数据湖”一词以来已经有十年了。这个术语及其底层技术比以往任何时候都热门。

数据湖.jpg

尽管数据仓库(DWH)系统已经存在并得到认可,但数据行业已经接受了更新的存储库,即数据湖,特别是在大数据增长,向云存储的转变以及实施数据仓库之后。 


可以争论的是,数据湖的优势包括:

1、更快的访问:用户可以轻松访问数据湖,从而实现实时分析。

2、适应性:数据湖可以存储小规模或巨大的数据量(甚至PB)。

3、灵活性:数据湖能够处理各种数据类型和数据源。

4、成本效益:与本地数据湖相比,云数据湖更加经济实惠。


数据湖的吸引力和新颖的功能对传统的数据仓库(DWH)系统构成了巨大的威胁。DWH的主要缺点包括与不适应不断发展的数据环境的刚性内部结构相关的高昂成本,而DWH在设计和构建复杂数据存储方面可能会非常耗时。


尽管如此,数据湖解决方案通过提供具有成本效益的云存储选项并使界面和功能更易于识别和简化而在竞争中获得了改观。此外,对DWH的需求仍然很高,其好处包括:

1、效率: 数据湖数据是结构化的,可以在几毫秒内检索到。

2、趋势分析:由于数据湖专为查询和分析而设计,因此它包含历史数据,使用户可以随时间回答一系列预定义的问题。

3、治理:由于许多数据湖系统遵循基于内部数据标准和策略的方法(例如Kimball或Inmon),因此可以帮助数据用户就规则,标准和解释达成一致。


面对大数据问题,数据湖的新范例确实可以完美满足AI的需求,但是结构化数据可以更好地为许多分析或业务用户提供服务。因此,结合了结构化和半结构化数据系统的混合解决方案越来越受欢迎。


如今,数据湖和数据湖已成为数据行业公认的存储库。根据业务用途,数据湖和数据湖可以用于不同的目的并提供各种优势。


但是,两个存储系统仍然存在一个共同的未解决问题: 资料品质。著名的80/20数据科学难题,无论您选择何种数据存储方式,都需要80%的时间用于清理而20%的时间用于分析。


关于数据质量的主要区别在于,数据清理是在将数据加载到数据湖之后进行的,而数据质量过程则是在将数据加载到数据湖中之前实施的;在这两种情况下,这将使花费在改进数据质量上的时间相似。


已经创建了平台来解决这个常见的数据质量问题,该问题在整个数据团队中消耗大量的工程时间。


数据质量对于两种类型的数据存储系统都非常重要:

1、数据湖中的数据质量:这可以通过应用有关GDPR或其他数据相关法律的质量规则来防止“脏”数据值馈入AI模型或强制执行数据提供者的数据传递SLA来实现。

2、数据湖中的数据质量:为了使DWH的集成速度更快,至关重要的是能够在几分钟内增加质量层次,加快集成过程和数据质量洞察力。


许多组织正在采用混合存储系统解决方案,这使得在所有存储系统中拥有一致的数据质量视图比以往任何时候都更加重要。因此,实施可在混合方案中使用的数据质量工具对于优化数据系统,授权数据团队和业务部门以及希望将80/20规则反转为80%的分析和20%(或更少)的清理至关重要。


了解更多数据湖或数据治理相关知识:https://www.esenruizhi.com/ 

(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 数据治理的方法论是什么?

    数据治理的方法论是什么?

    一套科学、完整的实施方法论,可以为用户建立一套适应用户业务需求,并且操作性强的主数据管理体系。遵循该方法路线进行数据治理工作可以大大缩减……查看详情

    发布时间:2019.06.14来源:欣思博述数字化浏览量:163次

  • 关于数据治理的十件事

    关于数据治理的十件事

    数据治理是我们现在遇到的众多热门词汇之一。有人可能会说这是炒作,但我不这么认为。出于许多好的理由,这是我们的首要考虑,其中一些我们在下面……查看详情

    发布时间:2018.12.18来源:数据治理浏览量:229次

  • 数据治理直击灵魂的四问:治什么?谁来治?怎么治?选哪个?

    数据治理直击灵魂的四问:治什么?谁来治?怎么治?选哪个?

    近些年来,“数据治理”这个词总是高频出现,让人们对其“身世背景”格外好奇。国际数据治理研究所(DGI)给出的定义:数据治理是一个通过一系……查看详情

    发布时间:2020.09.19来源:知乎浏览量:179次

  • 什么是医疗保健中的数据治理?

    什么是医疗保健中的数据治理?

    数据治理是一种管理数据的方法,允许组织平衡两个需求:收集和保护信息的需求,同时从信息中获取价值。但它远不止于此。健康数据包括患者的个人和……查看详情

    发布时间:2018.11.20来源:数据治理浏览量:180次

  • 全球数据治理市场到2024年 - 数据量的增长以提供巨大的机会

    全球数据治理市场到2024年 - 数据量的增长以提供巨大的机会

    预计数据治理市场在预测期间(2019年至2024年)的复合年增长率将超过21.44%,预计到2024年将达到43.5亿美元的价值。 ……查看详情

    发布时间:2019.07.04来源:知乎浏览量:180次

  • 高质量的数据一般包括哪些特征?

    高质量的数据一般包括哪些特征?

    ​基于数据决策的前提是数据可靠且相关,数据必须是“真实可信的”,否则“输出将是误导和无效的”。但是企业所收集的数据可能不完全,或者更新不……查看详情

    发布时间:2022.06.09来源:小亿浏览量:3519次

  • 数据情报,数据治理和第四次工业革命

    数据情报,数据治理和第四次工业革命

    世界经济论坛创始人,“第四次工业革命 ”一书的作者克劳斯·施瓦布表示,目前技术突破的速度没有历史先例,第四次革命是以指数而非线性的速度发……查看详情

    发布时间:2019.02.21来源:亿信华辰浏览量:219次

  • 企业如何做好数据安全管理?

    企业如何做好数据安全管理?

    数据安全对企业生存发展举足轻重,数据资产的外泄、破坏都会导致无可挽回的经济损失和核心竞争力缺失。而绝大多数中小企业注重业务的快速发展,往……查看详情

    发布时间:2022.05.27来源:小亿浏览量:332次

  • 数据质量在数据治理中的重要意义

    数据质量在数据治理中的重要意义

    数据的质量问题从一定的角度反映出组织当中存在的一些问题,而问题的来源可能是数据流动,可能业务流程也可能源于管理问题等等,数据质量问题的分……查看详情

    发布时间:2020.01.10来源:CSDN浏览量:207次

  • 商业银行数据治理从源头抓起 坚持数据标准先行

    商业银行数据治理从源头抓起 坚持数据标准先行

    商业银行数据治理是一门将数据视为一项资产的学科。它涉及到银行以资产的形式对数据进行优化、保护和利用的决策权利。糟糕的数据管理意味着糟糕的……查看详情

    发布时间:2019.09.04来源:知乎浏览量:205次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议