构建有效的数据科学团队

发布时间:2019.03.15来源:亿信华辰浏览量:183次标签:数据治理


随着数据科学和人工智能几乎进入阳光下的每个行业,建立一个能够建立成功的AI项目的团队的挑战也是如此。对统计学家,程序员和沟通者完美融合的原型“数据科学家”的需求从未如此强烈。但随着尘埃落定,我们开始听到失败的 项目和  失望的  专业人士的故事  。

您可能听说过昂贵的专家团队一次又一次失败。作为一名在各个行业工作的数据科学顾问,我有机会亲眼看到这一趋势。许多人倾向于认为数据科学是一个新领域,并期望它成为主流时会有成长的痛苦,但我们忘记了这个领域的来源。这是我尝试通过自己的经验反映成功数据团队的品质,并帮助商业领袖和高管创建更好的人工智能策略。

不要忘记你的根

首先,我们需要将数据科学视为现有学科的自然演变,而不是全新的学科。毕竟,我们在计算机时代开始之前一直在处理数据,至少从20世纪60年代开始,人工智能的概念就已存在。其他学科,如数据库知识发现,决策支持系统,商业智能,数据挖掘,分析,预测分析等,已经存在很长时间了。每个人的主要目标是从数据中提取有意义的模式,并利用这些模式获取见解并为未来做出决策。

数据科学是这一趋势的最新体现,这是因为我们在互联网时代可以获得的数量和种类数据大量增加。相对便宜的计算能力和机器学习算法的新突破可以利用这些丰富的数据进一步推动它。这些新算法的复杂性和数学复杂性的增加使得具有高级学位的人突然需要能够理解它们,因此AI比赛已经开始。

但尽管这项技术显而易见,但我坚信,我们可以从旧学科中的神话和最佳实践中学到很多东西。

秘密成分?

好的,这是一个棘手的问题。我见过公司经常会遇到最新最好的算法和计算处理器,同时把数据视为   理所当然。我们可能有大量数据可用,但数据的质量不是特定的。良好的数据仍然难以收集,因此可能是您可能拥有的主要竞争优势。除非您提供良好的数据,否则最好的算法无法保证良好的模型。正如他们所说 - 垃圾进去,垃圾出来。

人工智能最容易被忽视的一个方面是,大多数算法都是通过开源软件或通过云提供商以极低的成本免费提供的。在某种程度上,AI算法已经或将要通过这些库和服务商品化。

我的建议是首先将您的数据科学路线图分解为每个人都同意的简单用例,并且可以在一位数的周数内实现。还要确保可以获得数据,明确定义ROI和/或可交付成果,并且数据团队遵循迭代执行过程。

因为,数据是任何数据科学战略中最重要的组成部分,您需要的第一批人才是  数据工程师。数据工程师通常是具有良好编程和硬件技能的人员,可以构建您的数据基础架构。这取决于您的数据大小,但他们通常很适合使用大数据和云技术,知道如何构建数据管道,设计数据库以及从中提取数据。他们将知道如何在基本级别查看数据,并对数据质量进行简单的聚合以进行健全性检查,但不一定是分析数据的专家。

在构建了数据基础架构之后,您将需要能够获取该数据的人员,清理它,分析数据,在其上运行实验并传达结果。根据您的业务需求,确切的技能会有所不同。大部分时间,这项工作由数据分析师完成,   他们擅长处理和清理数据,创建统计推断或预测模型,运行实验,绘制结果,创建报告以及向更高层次的利益相关者提供见解。他们主要在Jupyter笔记本或Rstudio工作,并结合了编程,统计和机器学习知识。我们不应指望他们编写生产质量代码。

这让我接下来的角色。如果您正在构建数据产品,则需要  团队中的机器学习工程师 。这些人不是构建机器学习算法的研究人员,而是熟悉各种数据科学库的数据聚焦软件开发人员,并且知道如何根据分析师开发的模型编写生产质量代码。要完成这项工作,他们必须与数据工程师密切合作,或者也可以由数学精通的数据工程师为小型团队完成。大多数希望进入数据科学领域的开发人员都应该将其视为一个很好的职业选择。

有时,拥有一个更注重设计的数据可视化专家  来创建高度优化的图表和报告以传达分析结果也可能是有用  的。

我倾向于将  数据科学家  视为在所有上述角色中均高于平均水平的人,以及谁知道如何与  领域专家合作  以提供结果。这些合作者通常在您的团队或组织之外,在医学,金融,经济学,市场营销,法律等案例中利用他们的主题专业知识。

如果您正在处理需要某些自定义或专有数据科学算法的问题,那么可能需要聘请具有博士或核心研究背景的人员。他们可能对会话AI,计算机视觉,机器人,强化学习,图形模型等AI领域背后的理论和算法有深刻的理解。我倾向于喜欢  研究工程师 或  研究科学家这样  的角色。

数据科学团队中另一个重要但较少谈论的角色是  数据科学经理  或  数据科学负责人。对于规模较小的团队而言,拥有一名对团队中所有不同角色有深入了解的团队中的高级成员可能就足够了。但是一旦团队成长,你可能需要具备强大技术和商业战略背景的人。

数据科学经理是实践领导者,他们将构建您的数据科学战略的基础,招募和建立您的团队,确保每个人彼此交互,拥有他们需要的数据和信息,并开发整个团队的流程可以按照。它们是数据团队与组织其他成员,协作者和管理人员的接口。他们将复杂的AI术语翻译成非专家,并确保他们的工作与整个组织的战略保持一致。

管理者需要经常发挥的另一个重要作用是在整个团队中设计  数据治理  和  道德 标准。来自该领域的大多数专业人员都学习了完成工作所需的技术技能,但我很少看到数据隐私和分析结果的道德沟通的重要性。这导致像Facebook丑闻一样   使我们的领域声名狼借。在我看来,拥有在团队中了解并执行这些价值观的人会让您超越其他人。

所以,这些是我对成功的数据科学团队的看法。主要的方法是 - 如果我们始终保持简单的策略,在合适的时间雇用合适的人员,利用从以前的领域收集的知识,并开发一个最适合您的团队和目标的过程,有没有理由你不能成为一个有效的数据驱动组织。

(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 银行数据治理的核心问题

    银行数据治理的核心问题

    银行一直掌握着大量关于客户的数据,数据汇总,存储和分析的持续进步意味着收集的数据提供了不可估量的价值和机会。 ……查看详情

    发布时间:2019.08.14来源:简书浏览量:158次

  • 数据交换平台的功能结构设计与实现

    数据交换平台的功能结构设计与实现

    数据交换平台是数据中心与其它应用系统沟通的桥梁,是进行数据交换的枢纽站。数据交换平台负责从各个业务系统采集数据,对数据进行清洗与整合,按……查看详情

    发布时间:2020.08.06来源:知乎浏览量:316次

  • 最全数据治理工具解析:数据治理工具的关键必备功能

    最全数据治理工具解析:数据治理工具的关键必备功能

    ​数据治理工具被定义为帮助创建和维护一组结构化策略、程序和协议的过程的工具,这些策略、程序和协议控制企业数据的存储、使用和管理方式。本文……查看详情

    发布时间:2021.07.22来源:亿信华辰数据治理浏览量:363次

  • 企业如何提升数据质量?

    企业如何提升数据质量?

    在这个大数据时代,数据资产逐渐成了构成成企业核心竞争力的关键要素,然后,大数据的应用必须建立在高质量的数据上才有意义,因此提供数据质量是……查看详情

    发布时间:2019.07.26来源:知乎浏览量:112次

  • 如何构建企业安全易用的数据资产?

    如何构建企业安全易用的数据资产?

    在数据治理架构中,数据资产管理位于底层数据和数据管理与应用之间,处于承上启下的重要地位。对上支撑数据安全管理等职能建设以价值发掘为导向的……查看详情

    发布时间:2021.06.02来源:亿信华辰数据治理知识库浏览量:229次

  • 云中的数据治理

    云中的数据治理

    IT中心,内部部署基础架构变得越来越复杂和昂贵,并且需要高技能的人力,因此企业现在将其IT和数据科学功能转移到云。云计算承诺提供低成本存……查看详情

    发布时间:2019.02.21来源:亿信华辰浏览量:160次

  • 您是否与数据治理的战略转变保持一致?

    您是否与数据治理的战略转变保持一致?

    大多数企业都知道数据是收入增长和长寿的关键,并且他们必须找到一种方法来利用这些资产获取洞察力以获得竞争优势。……查看详情

    发布时间:2019.03.27来源:亿信华辰浏览量:138次

  • 灵活的分析数据生命周期?

    灵活的分析数据生命周期?

    受监管实验室数据完整性指南的要求之一是数据生命周期,涵盖监管记录的生死。数据生命周期在最近的MHRA数据完整性指南中定义为“从生成和记录……查看详情

    发布时间:2018.12.27来源:数据治理浏览量:166次

  • 实施数据治理策略

    实施数据治理策略

    数据治理是确保数据在输入系统时满足精确标准和业务规则的过程。数据治理使企业能够控制数据资产的管理。此过程包括确保数据符合其预期目的所需的……查看详情

    发布时间:2018.11.16来源:互联网浏览量:117次

  • 国内成熟的数据治理解决方案提供商

    国内成熟的数据治理解决方案提供商

    如今,数据已成为企业的货币,但管理数据不当可能会很快失去控制。麻省理工学院最近的一项研究发现,对于一些企业来说,大数据正在变成糟糕的数据……查看详情

    发布时间:2019.11.25来源:CSDN浏览量:192次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议