深度思考:从BERT看大规模数据的无监督利用

发布时间:2019.02.20来源:亿信华辰浏览量:178次标签:数据治理

在击败 11 个 NLP 任务的 State-of-the-art 结果之后,BERT 成为了 NLP 界新的里程碑, 同时打开了新的思路: 在未标注的数据上深入挖掘,可以极大地改善各种任务的效果。数据标注是昂贵的,而大量的未标注数据却很容易获得。

在分类中,标签表示训练示例所属的类; 在回归中,标签是对应于该示例的实值响应。 大多数成功的技术,例如深度学习,需要为大型训练数据集提供 ground truth 标签;然而,在许多任务中,由于数据标注过程的高成本,很难获得强有力的监督信息。 因此,希望机器学习技术能够在弱监督下工作。

这不可避免地导致我们重新考虑弱监督学习的发展方向。 弱监督学习的主要目标是仅使用有限量的标注数据,和大量的未标注数据,来提升各项任务的效果。

弱监督最大的难点在于如何用少量的标注数据,和为标注数据来有效地捕捉数据的流形。目前的一些解决方案在面对复杂的数据时,比较难准确地还原数据的流形。但是 BERT 通过大量的预训练,在这方面有着先天的优势。

因而,BERT 凭借对数据分布的捕获是否足以超越传统半监督的效果?又或者,BERT 能否有与半监督方法有效地结合,从而结合两者优势?

弱监督

通常,有三种类型的弱监督。第一种是不完全监督,即只有一个(通常很小的)训练数据子集用标签给出,而其他数据保持未标注。 这种情况发生在各种任务中。 例如,在图像分类中,ground truth 标签由人类注释者给出;很容易从互联网上获取大量图像,而由于人工成本,只能注释一小部分图像。

第二种类型是不精确监督,即仅给出粗粒度标签。 再次考虑图像分类任务。 期望使图像中的每个对象都注释;但是,通常我们只有图像级标签而不是对象级标签。

第三种类型是不准确监督,即给定的标签并不总是真实的。 出现这种情况,例如当图像注释器粗心或疲倦时,或者某些图像难以分类。

对于不完全监督,在这种情况下,我们只给予少量的训练数据,并且很难根据这样的小注释来训练良好的学习 然而,好的一面是我们有足够的未标注数据。 这种情况在实际应用中经常发生,因为注释的成本总是很高。

通过使用弱监督方法,我们尝试以最有效的方式利用这些未标注的数据。有两种主要方法可以解决这个问题,即主动学习和半监督学习。两者的明确区别在于前者需要额外的人为输入,而后者不需要人为干预。

主动学习(Active Learning)

主动学习假设可以向人类从查询未标注数据的 ground truth。目标是最小化查询的数量,从而最大限度地减少人工标签的工作量。换句话说,此方法的输出是:从所有未标注的数据中,找到最有效的数据点,最值得标注的数据点然后询问 ground truth。

例如,可能有一个距离决策边界很远的数据点,具有很高的正类可信度,标注这一点不会提供太多信息或改进分类模型。但是,如果非常接近分离阈值的最小置信点被重新标注,则这将为模型提供最多的信息增益。

更具体地说,有两种广泛使用的数据点选择标准,即信息性和代表性。信息性衡量未标注实例有助于减少统计模型的不确定性,而代表性衡量实例有助于表示输入模式结构的程度。

关于信息性,有两种主要方法,即不确定性抽样(Uncertainty sampling)和投票机制(query-by-committee)。 前者培训单个分类器,然后查询分类器 confidence 最低的未标注数据。 后者生成多个分类器,然后查询分类器最不相同的未标注数据。

关于代表性,我们的目标是通常通过聚类方法来利用未标注数据的聚类结构。

半监督学习(Semi-Supervised Learning)

另一方面,半监督学习则试图在不询问人类专家的情况下利用未标注的数据。 起初这可能看起来反直觉,因为未标注的数据不能像标注数据一样,直接体现额外的信息。

然而,未标注的数据点却存在隐含的信息,例如,数据分布。新数据集的不断增加以及获得标签信息的困难使得半监督学习成为现代数据分析中具有重要实际意义的问题之一。

半监督学习的最主要假设:数据分布中有可以挖掘的的信息。

总结

在深入了解弱监管的历史和发展之后,我们可以看到这一研究领域的局限性和改进潜力。数据标签成本总是很昂贵,因为需要领域专业知识并且过程非常耗时,尤其是在 NLP 中,文本理解因人而异。但是,我们周围存在大量(几乎无限量)未标注的数据,并且可以很容易地提取。

因此,我们始终将持续利用这种丰富资源视为最终目标,并试图改善目前的监督学习表现。从 ULMFiT 等语言模型到最近的 BERT,迁移学习是另一种利用未标注数据的方法。通过捕获语言的结构,本质上是另一种标签形式。在这里,我们建议未来发展的另一个方向 - 将迁移学习与半监督学习相结合,通过利用未标注的数据进一步提高效果。


(部分内容来源网络,如有侵权请联系删除)
立即免费申请产品试用 免费试用
相关文章推荐
  • 云管理与云治理

    云管理与云治理

    混合云或多云已成为当今组织IT战略的重要组成部分。作为多云战略的一部分,组织需要定义如何在多个云中管理,控制,操作,优化和保护云基础架构……查看详情

    发布时间:2019.03.08来源:亿信华辰浏览量:143次

  • 数据信任是智能城市数据治理的一部分吗?

    数据信任是智能城市数据治理的一部分吗?

    鉴于最近的丑闻,城市别无选择,只能紧急关注数据治理问题。数据信任可以成为解决方案的一部分吗?……查看详情

    发布时间:2019.03.25来源:亿信华辰浏览量:83次

  • 数据治理运营:团队

    数据治理运营:团队

    这是关于数据治理运作的两部分系列的第二部分。“数据治理可操作性:差距”系列的第一部分讨论了需求是如何产生的,数据……查看详情

    发布时间:2018.12.27来源:亿信华辰浏览量:107次

  • 数据质量对于数据分析来说至关重要

    数据质量对于数据分析来说至关重要

    数据质量的关键所在包括:大致分为完整性,一致性,准确性,有效性和及时性这五个组件。……查看详情

    发布时间:2019.11.13来源:知乎浏览量:109次

  • 从数据管理开始 才能为人工智能的成功做好准备

    从数据管理开始 才能为人工智能的成功做好准备

    如果你已经决定在今年做更多的人工智能实验,请首先仔细研究您的数据管理实践。……查看详情

    发布时间:2019.02.15来源:亿信华辰浏览量:97次

  • 做数据的守护者亿信华辰推新一代数据治理解决方案

    做数据的守护者亿信华辰推新一代数据治理解决方案

    为帮助银行业客户满足监管合规的要求,亿信华辰在2018年推出了最新版的数据治理解决方案,其中包含数据治理组织架构的建设、数据管理专项工作……查看详情

    发布时间:2019.10.24来源:知乎浏览量:64次

  • 数据沿袭工具如何促进数据治理策略

    数据沿袭工具如何促进数据治理策略

    企业可以通过跟踪数据更改的方式和时间来加强数据治理工作。专家David Loshin就如何使用数据沿袭产品提供建议。……查看详情

    发布时间:2019.03.26来源:亿信华辰浏览量:122次

  • 关于数据治理的十件事

    关于数据治理的十件事

    数据治理是我们现在遇到的众多热门词汇之一。有人可能会说这是炒作,但我不这么认为。出于许多好的理由,这是我们的首要考虑,其中一些我们在下面……查看详情

    发布时间:2018.12.18来源:数据治理浏览量:132次

  • 2021权威解读:大数据治理包括哪些内容

    2021权威解读:大数据治理包括哪些内容

    ​近年来数据治理越来越受到国内外研究机构和学者的关注,在数据治理的框架设计等方面均取得了很多研究成果,并在商业、教育、医疗等以数据为核心……查看详情

    发布时间:2021.04.02来源:数据治理研究院浏览量:324次

  • 数据治理知识:怎么判断数据质量是否健康?

    数据治理知识:怎么判断数据质量是否健康?

    从数据质量检查开始:导出数据的子集并通过亿信华辰数据质量管理平台运行它 。这项软件服务可快速评估您数据的有效性、完整性和唯一性。……查看详情

    发布时间:2021.06.10来源:亿信华辰数据治理知识库浏览量:132次

相关主题
您点击 “提交”,表明您已理解并同意接受本网站隐私政策和用户协议