数据囤积日益增长的威胁

发布时间:2019.02.28来源:亿信华辰浏览量:18次标签:数据治理


在数据丰富的环境中生活和工作的缺点之一是希望将所有最后的位和字节松开以备将来使用。得益于Amazon S3和Hadoop等廉价存储系统,技术上可以存储您收集的每一条数据。但是走太远的路可能会导致危险的情况,即数据囤积。

虽然数据囤积可能不像物理囤积现实世界的物品一样具有威胁,但是有类似的心理学在起作用。在过去的25年中,存储每一期“纽约时报”的物理囤积者可能会因为错误的想法而这样做,他们将来需要在某个时候参考该论文。同样地,数字囤积者可能会抓住谷歌的每一个关键词报告,因为它错误地认为它会促进营销工作。

数据囤积的事件正在上升,这应该不足为奇。毕竟,由于大数据热潮,我们拥有丰富且价格合理的存储,其中大部分存储在云端。根据EMC数据传播者Bill Schmarzo的说法,对于相同数量的资金,您可以在基于Hadoop的数据湖中存储50倍于传统数据仓库的数据。这是一个很大的优势。

一些大数据解决方案提供商告诉客户不要丢弃数据,这加剧了数据囤积问题。当你将这种心态与可以从数据耗尽中轻松挖掘竞争优势的心态以及囤积本身产生的动力结合起来时,你可以看到数据囤积有可能成为一个严重的问题。

从一个极端到另一个极端

在过去的20年中,我们在数据存储领域的两个极端之间反弹。在过去(即1995年),当存储成本高得多时,公司只会存储对其运营至关重要的数据。通常,数据源自操作数据存储,并且数据将被大量转换以严格符合预设模式。然后可以提取洞察并从这些严格控制的数据仓库运行报告。

但是,对于数据仓库而言,大数据湖泊已经颠覆了脚本。公司现在不存储具有经过验证的商业价值的数据,而是存储任何有可能在未来提供价值的数据。其中大部分是原始数据,或“数据耗尽”,之前被丢弃,因为它没有提供直接的商业价值。

我们已经从一个极端走向另一个极端,一家名为Xplenty的数据集成初创公司的首席执行官兼联合创始人Yaniv Mor说,他看到这种类型的数据囤积多年来变得更糟。

“现在公司倾向于简单地存储数据只是为了安全起见,以防万一有人想在未来使用这些数据,”Mor说。“相对来说,存储现在很便宜,所以他们只会将所有内容都放在Amazon S3或Google Cloud存储上。但是当分析师来并需要从中提取一些信息时,它就成了一个巨大的挑战。这是我们一直看到的东西。“

Mor表示,Apache Hadoop和云存储是数据囤积的推动因素。虽然这些平台在存储成本方面具有优势,但它们也暴露了缺乏从数据中提取有用信息的专业技能。

“这是一个很大的挑战,”莫尔说。“梳理这些数据并获得洞察力并不容易。你必须有数据科学家和非常专业的分析师,他们拥有筛选这些数据的技能。“

数据ROT的增长

大公司和其他组织,如政府机构,都是屈从于数据囤积的人。据乔迪霍克,美国国防部和美国情报工商业的执行董事船级社,联邦机构发现很容易只是添加,而不是面临着数据囤积迎面而来的困难更多的存储空间。

“有很多神话,”侯克在4月接受联邦新闻电台采访时说道。“他们认为存储是便宜的,所有数据都有价值,所有数据都具有相同的价值,并且他们会将这些数据转移到云端。所以这是免费存储空间,为什么我不能保留它呢?“

事实上,并非所有数据都是信息,Houck说。事实上,根据Veritas的2016年数据基因组学指数,目前普通组织存储的数据中有40%到60%是冗余的,过时的或微不足道的(ROT)。

更重要的是,Veritas发现超过40%的组织数据是陈旧的(即三年内没有被触及)。组织正在花费巨额资金来存储数百万个没有人正在使用的个人文件。“他们每桶花费500万美元来存储ROT,”Houck说。

关注营销

虽然数据囤积是一个平等的机会犯罪者,但Xplenty的Mor所说的业务中有一部分可能特别容易发出警报:营销。

“营销人员只是晚上收集,但他们不一定知道如何处理它,”莫尔说。“营销人员需要了解并非所有数据都是平等的。他们不一定必须收集营销服务提供给他们的每个位和字节。营销人员是创建数据沼泽的一个很好的例子。“

跟踪事物(即“治理”)也成为囤积者的一个大问题。就像那些囤积物理物品的人可能无法在装满天花板的房子里找到特定物品一样,数据囤积者也会发现自己在数据的重压下挣扎。当严格的模式控制崩溃并且“随时随地”的心态接管数据湖时,它很快就会变成一个模糊的数据沼泽。

数据囤积没有明确的定义,并且该综合症可能在不同的机构中存在不同程度。它还应该从法律规定的档案中消除歧义。例如,银行可能在法律上要求保留数据多年,而一些医疗保健组织必须保持数十年的医疗数据。

内部数据是20年前大多数数据仓库计划的来源,但今天的大数据囤积者倾向于使用随时可用的外部数据。特别是社交媒体数据通常存储在数据湖中,并且可以将其与其他数据混合以产生有意义的信号。但社交媒体数据通常非常“嘈杂”,并且包含可疑的商业价值。

数据囤积解决方案

解决数据囤积问题的第一步是承认存在问题。在那之后,可以采取几种策略。

Veritas的Houck提倡自上而下的数据治理解决方案,首先要获得对数据及其价值的可见性。在创建更好的模型来对数据进行分类之后,由数据专业人员或首席数据官来决定是否拥有所有权并实施更好的数据治理策略。

“如果我们今天实施信息治理策略并开始使用ROT和陈旧数据,我们相信有更好的方法可以支持我们的任务并降低成本,然后继续提出创建分配项目的解决方案,以便我们能够她在接受联邦新闻电台采访时表示,移动那些对我们的系统毫无价值的数据。“这是一种文化变革。这是一项技术变革。我们无法通过手动查看每个数据来实现,但有能力自动爬行,记录您拥有的数据,然后采取行动。“

Xplenty的Mor认为,迫切需要教育人们关于数据囤积问题。“你必须教育人们他们需要对他们可用的数据做些什么,特别是在评估数据架构方面,特别是在云上,”他说。“人们不知道如何在云上构建数据架构。”

最终,数据囤积问题必须从下至上解决,这意味着让个人改变他们查看数据的方式。“这不是关于你在一天结束时收集了多少数据 - 这是你将从数据中获得什么价值的问题,”他说。“每个分析师,每个数据专业人士,每天都应该问问自己这个问题。”


(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 大型企业数据治理的现状和解决方案

    大型企业数据治理的现状和解决方案

    在大数据时代,数据治理是所有的拥有大量数据的公司的巨大的挑战。没有数据,企业缺乏用于做决策的数据的支持。可是有了越来越多的数据,很多情况……查看详情

    发布时间:2020.03.24来源:知乎浏览量:20次

  • 银行数据质量管理方法研究与实践

    银行数据质量管理方法研究与实践

    伴随外部监管要求逐步提高以及市场竞争环境的日益激励,银行对于数据价值的重视提升到了前所未有的高度,数据对于银行来说已经成为一项重要的资产……查看详情

    发布时间:2019.02.21来源:知乎浏览量:36次

  • 国内数据治理系统全面介绍

    国内数据治理系统全面介绍

    随着大数据技术的飞速发展,大数据已经融入到了各行各业,为了能让各企业的数据资产得到充分的利用,数据治理非常重要,如今数据治理已经逐渐成为……查看详情

    发布时间:2019.09.19来源:知乎浏览量:26次

  • 如何成功实现一个数据治理项目,大神详细拆解实施要点

    如何成功实现一个数据治理项目,大神详细拆解实施要点

    数据作为新型生产要素,只有流动、分享、加工处理才能创造价值。如今数据治理成为数字经济必经之路,怎么实现一个数据治理项目成为大家最关心的问……查看详情

    发布时间:2021.02.02来源:知乎浏览量:37次

  • 数字信任:通过数据治理获取并保持数字化

    数字信任:通过数据治理获取并保持数字化

    数字信任可以成就或打破品牌。……查看详情

    发布时间:2019.01.27来源:亿信华辰浏览量:32次

  • 什么是数据交换管理平台?

    什么是数据交换管理平台?

    首先来个比较官方的定义,数据交换管理平台是指将分散建设的若干业务系统进行整合,以实现若干个业务子系统之间数据或者文件的传输和共享,提高信……查看详情

    发布时间:2020.04.22来源:知乎浏览量:26次

  • 银行数据治理包括哪几个方面

    银行数据治理包括哪几个方面

    从《银行业金融机构数据治理指引》相应章节可看出, 数据治理/管理的核心是基础数据、衍生数据,以及产生与 应用这些数据的组织架构、运行机制……查看详情

    发布时间:2021.04.06来源:数据治理研究院浏览量:54次

  • 2句话告诉你什么是数据治理

    2句话告诉你什么是数据治理

    数据治理是实践和流程的集合,有助于确保组织内数据资产的正式管理。数据治理通常包括其他概念,例如数据管理,数据质量等,以帮助企业更好地控制……查看详情

    发布时间:2021.04.28来源:亿信数据治理知识库浏览量:22次

  • 美国政府开放数据的元数据标准对我国的启示

    美国政府开放数据的元数据标准对我国的启示

    从 2012 年至今,我国已相继上线近 20 个地方政 府开放数据的门户网站,国家层面的统一数据门户 网站 www.data.gov.c……查看详情

    发布时间:2019.08.27来源:大连海事大学交通运输管理学院浏览量:18次

  • 银行数据治理的核心问题

    银行数据治理的核心问题

    银行一直掌握着大量关于客户的数据,数据汇总,存储和分析的持续进步意味着收集的数据提供了不可估量的价值和机会。 ……查看详情

    发布时间:2019.08.14来源:简书浏览量:16次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议