深度思考:从BERT看大规模数据的无监督利用
发布时间:2019.02.20来源:亿信华辰浏览量:154次标签:数据治理
在击败 11 个 NLP 任务的 State-of-the-art 结果之后,BERT 成为了 NLP 界新的里程碑, 同时打开了新的思路: 在未标注的数据上深入挖掘,可以极大地改善各种任务的效果。数据标注是昂贵的,而大量的未标注数据却很容易获得。
在分类中,标签表示训练示例所属的类; 在回归中,标签是对应于该示例的实值响应。 大多数成功的技术,例如深度学习,需要为大型训练数据集提供 ground truth 标签;然而,在许多任务中,由于数据标注过程的高成本,很难获得强有力的监督信息。 因此,希望机器学习技术能够在弱监督下工作。
这不可避免地导致我们重新考虑弱监督学习的发展方向。 弱监督学习的主要目标是仅使用有限量的标注数据,和大量的未标注数据,来提升各项任务的效果。
弱监督最大的难点在于如何用少量的标注数据,和为标注数据来有效地捕捉数据的流形。目前的一些解决方案在面对复杂的数据时,比较难准确地还原数据的流形。但是 BERT 通过大量的预训练,在这方面有着先天的优势。
因而,BERT 凭借对数据分布的捕获是否足以超越传统半监督的效果?又或者,BERT 能否有与半监督方法有效地结合,从而结合两者优势?
弱监督
通常,有三种类型的弱监督。第一种是不完全监督,即只有一个(通常很小的)训练数据子集用标签给出,而其他数据保持未标注。 这种情况发生在各种任务中。 例如,在图像分类中,ground truth 标签由人类注释者给出;很容易从互联网上获取大量图像,而由于人工成本,只能注释一小部分图像。
第二种类型是不精确监督,即仅给出粗粒度标签。 再次考虑图像分类任务。 期望使图像中的每个对象都注释;但是,通常我们只有图像级标签而不是对象级标签。
第三种类型是不准确监督,即给定的标签并不总是真实的。 出现这种情况,例如当图像注释器粗心或疲倦时,或者某些图像难以分类。
对于不完全监督,在这种情况下,我们只给予少量的训练数据,并且很难根据这样的小注释来训练良好的学习 然而,好的一面是我们有足够的未标注数据。 这种情况在实际应用中经常发生,因为注释的成本总是很高。
通过使用弱监督方法,我们尝试以最有效的方式利用这些未标注的数据。有两种主要方法可以解决这个问题,即主动学习和半监督学习。两者的明确区别在于前者需要额外的人为输入,而后者不需要人为干预。
主动学习(Active Learning)
主动学习假设可以向人类从查询未标注数据的 ground truth。目标是最小化查询的数量,从而最大限度地减少人工标签的工作量。换句话说,此方法的输出是:从所有未标注的数据中,找到最有效的数据点,最值得标注的数据点然后询问 ground truth。
例如,可能有一个距离决策边界很远的数据点,具有很高的正类可信度,标注这一点不会提供太多信息或改进分类模型。但是,如果非常接近分离阈值的最小置信点被重新标注,则这将为模型提供最多的信息增益。
更具体地说,有两种广泛使用的数据点选择标准,即信息性和代表性。信息性衡量未标注实例有助于减少统计模型的不确定性,而代表性衡量实例有助于表示输入模式结构的程度。
关于信息性,有两种主要方法,即不确定性抽样(Uncertainty sampling)和投票机制(query-by-committee)。 前者培训单个分类器,然后查询分类器 confidence 最低的未标注数据。 后者生成多个分类器,然后查询分类器最不相同的未标注数据。
关于代表性,我们的目标是通常通过聚类方法来利用未标注数据的聚类结构。
半监督学习(Semi-Supervised Learning)
另一方面,半监督学习则试图在不询问人类专家的情况下利用未标注的数据。 起初这可能看起来反直觉,因为未标注的数据不能像标注数据一样,直接体现额外的信息。
然而,未标注的数据点却存在隐含的信息,例如,数据分布。新数据集的不断增加以及获得标签信息的困难使得半监督学习成为现代数据分析中具有重要实际意义的问题之一。
半监督学习的最主要假设:数据分布中有可以挖掘的的信息。
总结
在深入了解弱监管的历史和发展之后,我们可以看到这一研究领域的局限性和改进潜力。数据标签成本总是很昂贵,因为需要领域专业知识并且过程非常耗时,尤其是在 NLP 中,文本理解因人而异。但是,我们周围存在大量(几乎无限量)未标注的数据,并且可以很容易地提取。
因此,我们始终将持续利用这种丰富资源视为最终目标,并试图改善目前的监督学习表现。从 ULMFiT 等语言模型到最近的 BERT,迁移学习是另一种利用未标注数据的方法。通过捕获语言的结构,本质上是另一种标签形式。在这里,我们建议未来发展的另一个方向 - 将迁移学习与半监督学习相结合,通过利用未标注的数据进一步提高效果。
-
一个通用的数据中台架构应该如何构建,本文告诉你答案
这两年,越来越多的大数据从业者提到“数据中台”的概念。在信息系统建设工作中,我们熟知系统可以分为前台和后台,但什么是中台,每个人的理解并……查看详情发布时间:2020.09.14来源:小亿浏览量:89次
-
2019年的数据管理趋势:治理,DataOps,云
GDPR的数据治理要求,对AI驱动的分析的追求以及云计算的拉动为2018年数据管理和大数据团队的努力奠定了基调。这些和相关的数据管理趋势……查看详情发布时间:2019.01.02来源:亿信华辰浏览量:60次
-
企业如何做好数据安全管理?
数据安全对企业生存发展举足轻重,数据资产的外泄、破坏都会导致无可挽回的经济损失和核心竞争力缺失。而绝大多数中小企业注重业务的快速发展,往……查看详情发布时间:2022.05.27来源:小亿浏览量:169次
-
BigID和Ionic安全合作伙伴为云和多云合规性增强数据治理和隐私
BigID和Ionic安全合作伙伴为云和多云合规性增强数据治理和隐私以色列纽约和特拉维夫 - (BUSINESS WIRE)- (美国商……查看详情发布时间:2019.01.17来源:数据治理浏览量:81次
-
浅谈数据质量对企业管理的影响
工欲善其事,必先利其器。亿信数据质量管理平台(EsDataClean)提供从标准定义、质量监控、绩效评估、质量分析、质量报告、重大问题及……查看详情发布时间:2020.10.21来源:知乎浏览量:98次
-
询问数据治理教练:数据湖上的数据治理?
在没有首先理解数据的情况下将数据提取到数据湖中,这只是经常发生的许多数据治理错误之一。您可以在此处下载我的免费报告,找出最常见的错误,更……查看详情发布时间:2019.03.22来源:亿信华辰浏览量:90次
-
数据治理的伦理 - “数据带来利益和负债”
数据从未像现在这样强大。2018年发现了一些历史上最大的数据泄露事件,包括万豪酒店集团违规行为和剑桥分析公司丑闻,两者都对国际关系产生了……查看详情发布时间:2019.03.12来源:亿信华辰浏览量:103次
-
数据治理到底应该怎么治?
数据到底怎么治,这确实是一个宽泛的话题,首先是要明确治理的内容。针对不同的治理内容采取不同的数据治理策略。关于小数据和大数据的治理侧重点……查看详情发布时间:2020.07.07来源:知乎浏览量:93次
-
运用大数据加快推进科技治理能力现代化
习近平总书记指出:“要运用大数据提升国家治理现代化水平。要建立健全大数据辅助科学决策和社会治理的机制,推进政府管理和社会治理模式创新,实……查看详情发布时间:2019.03.25来源:亿信华辰浏览量:91次