数据囤积日益增长的威胁

发布时间:2019.02.28来源:亿信华辰浏览量:117次标签:数据治理


在数据丰富的环境中生活和工作的缺点之一是希望将所有最后的位和字节松开以备将来使用。得益于Amazon S3和Hadoop等廉价存储系统,技术上可以存储您收集的每一条数据。但是走太远的路可能会导致危险的情况,即数据囤积。

虽然数据囤积可能不像物理囤积现实世界的物品一样具有威胁,但是有类似的心理学在起作用。在过去的25年中,存储每一期“纽约时报”的物理囤积者可能会因为错误的想法而这样做,他们将来需要在某个时候参考该论文。同样地,数字囤积者可能会抓住谷歌的每一个关键词报告,因为它错误地认为它会促进营销工作。

数据囤积的事件正在上升,这应该不足为奇。毕竟,由于大数据热潮,我们拥有丰富且价格合理的存储,其中大部分存储在云端。根据EMC数据传播者Bill Schmarzo的说法,对于相同数量的资金,您可以在基于Hadoop的数据湖中存储50倍于传统数据仓库的数据。这是一个很大的优势。

一些大数据解决方案提供商告诉客户不要丢弃数据,这加剧了数据囤积问题。当你将这种心态与可以从数据耗尽中轻松挖掘竞争优势的心态以及囤积本身产生的动力结合起来时,你可以看到数据囤积有可能成为一个严重的问题。

从一个极端到另一个极端

在过去的20年中,我们在数据存储领域的两个极端之间反弹。在过去(即1995年),当存储成本高得多时,公司只会存储对其运营至关重要的数据。通常,数据源自操作数据存储,并且数据将被大量转换以严格符合预设模式。然后可以提取洞察并从这些严格控制的数据仓库运行报告。

但是,对于数据仓库而言,大数据湖泊已经颠覆了脚本。公司现在不存储具有经过验证的商业价值的数据,而是存储任何有可能在未来提供价值的数据。其中大部分是原始数据,或“数据耗尽”,之前被丢弃,因为它没有提供直接的商业价值。

我们已经从一个极端走向另一个极端,一家名为Xplenty的数据集成初创公司的首席执行官兼联合创始人Yaniv Mor说,他看到这种类型的数据囤积多年来变得更糟。

“现在公司倾向于简单地存储数据只是为了安全起见,以防万一有人想在未来使用这些数据,”Mor说。“相对来说,存储现在很便宜,所以他们只会将所有内容都放在Amazon S3或Google Cloud存储上。但是当分析师来并需要从中提取一些信息时,它就成了一个巨大的挑战。这是我们一直看到的东西。“

Mor表示,Apache Hadoop和云存储是数据囤积的推动因素。虽然这些平台在存储成本方面具有优势,但它们也暴露了缺乏从数据中提取有用信息的专业技能。

“这是一个很大的挑战,”莫尔说。“梳理这些数据并获得洞察力并不容易。你必须有数据科学家和非常专业的分析师,他们拥有筛选这些数据的技能。“

数据ROT的增长

大公司和其他组织,如政府机构,都是屈从于数据囤积的人。据乔迪霍克,美国国防部和美国情报工商业的执行董事船级社,联邦机构发现很容易只是添加,而不是面临着数据囤积迎面而来的困难更多的存储空间。

“有很多神话,”侯克在4月接受联邦新闻电台采访时说道。“他们认为存储是便宜的,所有数据都有价值,所有数据都具有相同的价值,并且他们会将这些数据转移到云端。所以这是免费存储空间,为什么我不能保留它呢?“

事实上,并非所有数据都是信息,Houck说。事实上,根据Veritas的2016年数据基因组学指数,目前普通组织存储的数据中有40%到60%是冗余的,过时的或微不足道的(ROT)。

更重要的是,Veritas发现超过40%的组织数据是陈旧的(即三年内没有被触及)。组织正在花费巨额资金来存储数百万个没有人正在使用的个人文件。“他们每桶花费500万美元来存储ROT,”Houck说。

关注营销

虽然数据囤积是一个平等的机会犯罪者,但Xplenty的Mor所说的业务中有一部分可能特别容易发出警报:营销。

“营销人员只是晚上收集,但他们不一定知道如何处理它,”莫尔说。“营销人员需要了解并非所有数据都是平等的。他们不一定必须收集营销服务提供给他们的每个位和字节。营销人员是创建数据沼泽的一个很好的例子。“

跟踪事物(即“治理”)也成为囤积者的一个大问题。就像那些囤积物理物品的人可能无法在装满天花板的房子里找到特定物品一样,数据囤积者也会发现自己在数据的重压下挣扎。当严格的模式控制崩溃并且“随时随地”的心态接管数据湖时,它很快就会变成一个模糊的数据沼泽。

数据囤积没有明确的定义,并且该综合症可能在不同的机构中存在不同程度。它还应该从法律规定的档案中消除歧义。例如,银行可能在法律上要求保留数据多年,而一些医疗保健组织必须保持数十年的医疗数据。

内部数据是20年前大多数数据仓库计划的来源,但今天的大数据囤积者倾向于使用随时可用的外部数据。特别是社交媒体数据通常存储在数据湖中,并且可以将其与其他数据混合以产生有意义的信号。但社交媒体数据通常非常“嘈杂”,并且包含可疑的商业价值。

数据囤积解决方案

解决数据囤积问题的第一步是承认存在问题。在那之后,可以采取几种策略。

Veritas的Houck提倡自上而下的数据治理解决方案,首先要获得对数据及其价值的可见性。在创建更好的模型来对数据进行分类之后,由数据专业人员或首席数据官来决定是否拥有所有权并实施更好的数据治理策略。

“如果我们今天实施信息治理策略并开始使用ROT和陈旧数据,我们相信有更好的方法可以支持我们的任务并降低成本,然后继续提出创建分配项目的解决方案,以便我们能够她在接受联邦新闻电台采访时表示,移动那些对我们的系统毫无价值的数据。“这是一种文化变革。这是一项技术变革。我们无法通过手动查看每个数据来实现,但有能力自动爬行,记录您拥有的数据,然后采取行动。“

Xplenty的Mor认为,迫切需要教育人们关于数据囤积问题。“你必须教育人们他们需要对他们可用的数据做些什么,特别是在评估数据架构方面,特别是在云上,”他说。“人们不知道如何在云上构建数据架构。”

最终,数据囤积问题必须从下至上解决,这意味着让个人改变他们查看数据的方式。“这不是关于你在一天结束时收集了多少数据 - 这是你将从数据中获得什么价值的问题,”他说。“每个分析师,每个数据专业人士,每天都应该问问自己这个问题。”


(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 金融业如何解困破局、实现数据有序治理和高效利用

    金融业如何解困破局、实现数据有序治理和高效利用

    现如今金融业如何解困破局、实现数据有序治理和高效利用,是需要共同探讨的重点议题。数据治理应遵循四大基本原则。……查看详情

    发布时间:2019.12.12来源:知乎浏览量:118次

  • 数据资产管理直面企业痛点

    数据资产管理直面企业痛点

    企业日常经营活动中积累的大量数据,除了支持业务流程运转之外,越来越多地被用于帮助企业提升管理决策效率、实现价值挖掘和业务创新。企业日常经……查看详情

    发布时间:2020.09.11来源:知乎浏览量:113次

  • 33篇大数据治理相关文章

    33篇大数据治理相关文章

    33篇大数据治理相关文章,技术+案例一应俱全!……查看详情

    发布时间:2018.10.23来源:今日头条浏览量:136次

  • 做好数据治理,助力政府治理体系和治理能力现代化

    做好数据治理,助力政府治理体系和治理能力现代化

    当前,数据及其技术的融合应用在政府经济调节、市场监管、社会管理、公共服务、生态环境保护等各项工作中强劲助攻、潜力无限。但由于数据是新型生……查看详情

    发布时间:2020.04.02来源:知乎浏览量:155次

  • 数据都成为生产要素了?数据该如何治理?

    数据都成为生产要素了?数据该如何治理?

    先说说数据,其实现在说的数据和过去说的数据相比差别非常大,现在所说的数据不是一个静态文档,它是流动的数据,碎片化的数据,以各种各样的形式……查看详情

    发布时间:2020.11.23来源:知乎浏览量:241次

  • 加强数据治理-浅析企业数据治理机制

    加强数据治理-浅析企业数据治理机制

    数据治理是对企业数据资产管理行使权力和控制的活动集合(规划、监控和执行),是建立企业数据管理制度、指导企业执行数据规划、数据环境建设、数……查看详情

    发布时间:2018.12.07来源:浏览量:161次

  • 什么是数据价值?如何挖掘数据价值实现数字化转型?

    什么是数据价值?如何挖掘数据价值实现数字化转型?

    亿信华辰作为智能数据全生命周期产品与服务提供商,提供数据采集、数据存储、数据治理、数据分析产品全方位服务,帮助您实现数据价值挖掘、数据价……查看详情

    发布时间:2021.07.02来源:亿信华辰浏览量:1513次

  • 关注:2019年大数据的10大发展趋势

    关注:2019年大数据的10大发展趋势

    如今,人们寻求获得更多的数据有着充分的理由,因为数据分析推动了数字创新。然而,将这些庞大的数据集转化为可操作的洞察力仍然是一个难题。而那……查看详情

    发布时间:2019.02.12来源:亿信华辰浏览量:108次

  • 零售商的数据治理势在必行

    零售商的数据治理势在必行

    最好的零售商擅长推销商品。在顶级的实体和电子商务商店,产品组织巧妙,布置精美,色彩鲜明,使客户可以轻松找到他们想要的东西。做得好,商品推……查看详情

    发布时间:2019.02.14来源:亿信华辰浏览量:124次

  • 什么是数据治理?

    什么是数据治理?

    数据治理是一个包含可用性,适用性,完整性和安全性的四向框架。它是由使用技术的利益相关者使用的一组流程,以确保管理和保护重要和关键数据。它……查看详情

    发布时间:2018.11.16来源:互联网浏览量:150次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议