强大的数据治理是机器学习成功的关键

发布时间：2019.01.17来源：数据治理浏览量：212次标签：数据治理

人工智能和机器学习这两个术语通常被视为同一枚硬币的两面。尽管如此，虽然ML算法增强了AI功能，并使它们能够进行更多的尖端和智能计算，但还有一层额外的感知不可穿透性，现在它掩盖了机器推理和做出有影响力的决策的能力。

行业专家推测机器学习算法是潜在的“ 黑匣子”，这主要是因为人们对信任生态系统持怀疑态度，因为生态系统对数据合规性和决策过程的透明度有限。

全球数据分析师社区帮助设计了AI或ML驱动的半自动或全自动分析系统。但是，数据质量的核心和经常出现问题可能总是占上风。除此之外，各种各样不同的数据源，巨大的数据量和非结构化数据类型增加了现有的数据管理问题，特别是与数据治理相关的问题。

随着ML的发展势头并继续处于改变组织运作方式的最前沿，谨慎行事可能是明智之举。在缺乏强大的数据治理流程的情况下，允许ML完全接管决策流程的热情有可能释放出一些关键问题 - 不可靠和误导性的信息以及意外的费用开销。

那么我们如何有效地做到这一点：

建立，组织和实施有效且稳健的ML模型的必要性之间的差距是否应该弥合？
我们是否应该满足指数级增长的需求，以及理解和解密这些模型如何工作的需要？
我们如何理解ML算法正在访问和利用的数据？此外，长期持续且往往不可逆转的后果是什么？
数据治理无疑是最合乎逻辑的答案。

作为框架的数据治理定义并帮助实现对任何生态系统中使用的数据的可获得性，可用性，完整性，安全性和有效性的整体管理。

在当今竞争激烈的世界中，每个组织都需要一个精心设计和可持续的数据治理模型，在加强数据治理和不限制机器学习的深远潜力之间取得适当的平衡。

那么数据治理如何影响ML和AI呢？

实施数据治理模型的最初步骤可能是最难的，并且面临最大阻力。数据治理不仅仅是关于合规性，它也是一门可以加速ML工作并使AI成为一种力量的学科：

有什么优点？
数据治理提供了一种朴实无华的直接方法，用于跟踪和保护正确数据的使用，但也可识别数据错误并及时引发危险信号并帮助消除这些错误。
它使组织能够花更少的时间挖掘提供ML算法所需的准确数据源，并将更多时间用于创建和改进AI模型。
数据治理的最大好处是它可以证明数据是可靠且一致的。这是必要的，因为越来越多的组织现在依赖大量数据，做出业务决策，增加运营，创造新业务，并提高盈利能力。
有什么缺点？
太多的治理可能会受到限制，因为试图控制大量数据的最大缺点之一是忽视业务需求和目标。组织最终可能浪费大量宝贵的时间和资源，通过不重要的数据进行过滤，并最终获得具有重要价值的数据来为ML算法提供支持。
数据治理模型也可能对数据的处理方式施加限制，并且可能会引起争议，并且通常会限制组织的进展。
ML算法可能发现数据过滤和策划规则过于严格，并且约束可能限制其在现代和动态演进的数据环境中有效执行的固有能力。
随着ML和AI的使用和范围的发展，以及更新的技术的实施，数据治理将获得更广泛的应用和接受。最近发生的大量高安全性数据违规事件使数据安全成为数据治理工作的重要组成部分。欧盟（EU）关于通用数据保护法规（GDPR）的指令是数据治理措施的一个主要例子，并强化了建立更强大模型的必要性。
我们还有很长的路要走，以发现ML和AI的完整潜力和企业真正的能力。在一天结束时，在破坏性数据，智能ML算法和快速发展的AI环境的世界中，数据治理是为疯狂提供一些急需方法的唯一方法。

（部分内容来源网络，如有侵权请联系删除）

立即免费申请产品试用免费试用

睿治智能数据治理平台

数据采集

数据集成管理

数据交换管理

数据存储

实时计算存储

数据管理

元数据管理

数据标准管理

数据质量管理

主数据管理

数据服务

数据资产管理

大数据治理方案

大数据资产管理方案

主数据管理方案

数据标准化及质量管控方案

数据资产盘点方案

指标体系建设方案

数据仓库及商业智能方案

仓湖一体化数据中心建设方案