避免这五大数据治理错误
发布时间:2019.02.27来源:亿信华辰浏览量:91次标签:数据治理
如果您正在开始一个大数据项目,那么您可能会遇到一个或多个数据管理挑战。您就如何实施数据治理以及如何控制数据流所做出的决策可能会影响您的项目。
以下是您应该避免的五个数据治理错误:
1.您没有数据治理策略
如果你对自己说,“嗯,什么是数据治理?”那么你很可能
犯这个错误。数据治理是指一种总体战略,它定义了组织如何确保他们使用的数据清晰,准确,可用和安全。
当您的组织开始执行大数据项目时,您通常会以临时方式解决这些挑战中的一个或多个。这种方法可能会持续一段时间,但随着您获得大数据成功并承担更复杂的项目,缺乏治理可能会再次困扰您。
数据治理策略有几个组成部分,包括:设置指示数据存储和保护方式的流程; 制定一套标准和程序,以确保授权人员如何访问和使用数据; 并设置控制和程序以确保遵守规则。
与生活和IT中的大多数事物一样,数据治理无法实现“设置并忘记”的心态。从数据治理计划开始,然后随着时间的推移逐步扩展,以满足组织的特定需求。
2.对Unicorns的依赖太多了
许多商店都会向他们的数据科学家(即独角兽)求助于与大数据相关的所有事务。像可怜的磨坊主一样
谁发现他可以将稻草变成黄金,企业老板希望他们的独角兽能够将原始数据神奇地转化为可操作的洞察力。
这种方法可能不会长期有效。事实上,如果你足够幸运地获得了一只独角兽,那么你付出太多代价就不会让他们成为“数据管理员”,更不用说负责整个数据治理策略了。
数据治理最好由来自IT部门,业务线和合规性的数据利益相关者集合领导。数据治理研究所还建议雇用数据治理官(DGO)。
3.让架构运行狂野
这个错误通常与数据湖的实施同时发生。HDFS的宽恕使您可以将任何类型的数据与任何类型的数据放入Hadoop数据湖中,并担心以后将其排序。
这种“读取模式”方法可能适用于某些类型的数据,尤其是那些经常更改并且无法归入预先设定的模式的数据。但是读取模式只能带你到目前为止,并且在某些时候,必须强制执行模式。
Hadoop带来了大量的数据处理引擎,如Spark,Pig和良好的旧MapReduce,可帮助您为数据提供形状和形式 - 即使其可用。读取模式与核心数据治理主体相反,后者要求您知道要存储和处理的数据类型。
4.永远存储一切
良好的数据治理策略的一个重要方面是数据
退休。在某些时候,每一块数据都必须进入天空中那个伟大的回收箱。但很多时候,组织决定再也不会丢弃另一条数据。
如果你的组织遵循这个“保持一切”的命令,祝你好运。你可能需要很多额外的周期来保持腐烂的垃圾堆顺序。请考虑最新Veritas的2016年数据基因组学指数调查中的统计数据,该调查发现,目前普通组织存储的数据中有40%到60%是冗余,过时或无关紧要(ROT)。
组织每年花费数百万美元存储他们永远不会使用的数据。这不仅仅是良好的商业意识的失败 - 它是数据治理的失败。
5.不使用电动工具
因此,有一个有效的数据治理策略。您需要合适的人员来实施它,您需要一个良好的策略来规划优先级和一般策略,并且您需要良好的流程来帮助您在日常的基础上实施数据治理。
但是也有一个案例可以让合适的产品发挥作用。没有一个工具可以解决您的每个数据治理挑战。但是,大数据生态系统正在提供越来越引人注目的工具集,这些工具可以帮助自动化大块数据。
例如,Apache Atlas(孵化)等工具是Hortonworks数据治理计划的开源数据治理框架,它有助于在Hadoop环境中实施数据控制。数据质量工具也有助于解决数据治理挑战的特定方面。
在最近的杠杆大数据'16活动中,汤普森路透社技术部门全球业务总监Asif Alam承认,数据治理是一个巨大而且不断增长的挑战,但他补充说,工具正在使事情变得更好。“我们现在解决的问题在三年前无法解决,”阿拉姆说。
-
持续的业务改进取决于数据治理
当我们认为有价值的东西时,我们需要确定我们如何以及何时使用它以及保护它。我们通过建立标准,政策和流程来定义如何利用和保护此资产。……查看详情发布时间:2019.01.26来源:亿信华辰浏览量:89次
-
谷歌首席决策科学家:30篇文章通关数据科学与人工智能
谷歌首席决策科学家(Chief Decision Scientis)凯西柯兹科夫(Cassie Kozyrkov)在2018年非常高产,……查看详情发布时间:2019.01.24来源:亿信华辰浏览量:76次
-
正确的数据文化是数据治理成功的预测指标
获得数据治理计划的业务和领导支持 - 以及在该支持下建立数据文化 - 仍然是许多组织面临的重大挑战。然而,根据一项新的调查,获得这种支持……查看详情发布时间:2019.02.25来源:亿信华辰浏览量:98次
-
2021年自动化数据管理的热门用例
数据管理自动化将成为任何企业和行业越来越有价值的实践。这将有助于克服处理数据的挑战-从访问和存储到准备或分析数据-如果未进行优化,这些方……查看详情发布时间:2021.06.28来源:亿信华辰数据治理知识库浏览量:111次
-
试论加强数据治理能力的重要性
网络信息资源,是指所有以电子数据形式存储在信息光、磁等非纸质的文字、图像、声音、动画等多种形式的载体中,并通过网络通信、计算机或终端等方……查看详情发布时间:2018.12.05来源:网络传播杂志浏览量:100次
-
数据共享,奇葩证明的解药——亿信华辰
出境旅游,要求出具“母子关系证明”;市民迁户口,要证明“你爸是你爸”;车在大风中被树木刮伤,理赔要出示“风力证明”;去买房,要证明“结婚……查看详情发布时间:2019.03.04来源:亿信华辰浏览量:90次