什么是弱监督学习(bootstrapping)?

时间:2013-09-22 14:21:42

标签: machine-learning classification

我理解有监督和无监督学习之间的区别:

有监督的学习是一种教学方式"分类器,使用标记数据。

无监督学习让分类器自行学习",例如,使用群集。

但是什么是"弱监督学习"?它如何对它的例子进行分类?

4 个答案:

答案 0 :(得分:21)

简而言之:在弱监督学习中,您使用有限数量的标记数据。

如何选择此数据,具体取决于方法。通常,您使用有限数量的数据,这些数据很容易获得和/或产生真正的差异,然后学习其余的数据。我认为bootstrapping是一种可用于弱监督学习的方法,但正如Ben的评论所示,这不是普遍接受的观点。

例如,请参阅this dissertation以获得一个很好的概述(但我不确定半监督和弱监督学习之间的区别是否被普遍接受),它表示以下关于自举/弱监督学习的内容:

  

Bootstrapping,也称为自我训练,是一种学习方式   旨在使用更少的训练样例,因此有时   被称为弱监督。 Bootstrapping从一些培训开始   例子,训练分类器,并使用思想积极   由该分类器产生的用于再培训的例子。作为一套   训练样例增长,分类器改进,只要不是   太多的负面例子被误解为积极的,这可能   导致业绩恶化。

例如,在词性标注的情况下,通常会在10,000个单词上训练HMM(或最大熵或其他)标签,每个单词都带有POS。在弱监督标记的情况下,您可能只使用一个非常小的100个单词的语料库。你得到一些标记器,你用它来标记1000个单词的语料库,你训练一个标记器并用它来标记更大的语料库。显然,你必须比这更聪明,但这是一个好的开始。 (有关自举标记器的更高级示例,请参阅this paper

注意:弱监督学习也可以指带有嘈杂标签的学习(这种标签可以但不需要是自举的结果)

答案 1 :(得分:18)

  • 监管不力是带有嘈杂标签的监督。例如,bootstrapping,其中bootstrapping过程可能会错误地标记一些示例。
  • 远程监督是指不直接标记示例的训练信号;例如,从问答数据集中学习语义解析器。
  • 半监督学习是指您有一个部分标记且部分未标记的数据集。
  • 全面监督学习是指每个数据点都有基本真值标签。

答案 2 :(得分:1)

如Jirka所述,弱监督需要对小的标记数据集进行初始(监督)训练,对较大集合进行预测,并将(无监督)正面识别的实例(或其特征)纳入模型(通过重新放大放大的数据集或直接更新模型)。迭代(无监督)更新的过程直到达到某个目标。显然,如果初始预测器产生许多误报,这很容易出错,但是在某些情况下,搜索空间可以被约束,以便通过弱监督获得的泛化不会(经常)无法运行,或者用户输入可以是过去(弱)监督学习过程。为了提供不在文本挖掘中的补充,非常成功的例子,PSI-BLAST迭代地精炼蛋白质序列谱以识别远程同源物。可以在此paper中找到关于此上下文中这种方法可能出现什么问题的精彩概述。

答案 3 :(得分:1)

本文[1]定义了3种典型的弱监督类型:

  • 不完全监督,其中只有一部分训练数据带有标签; (我认为这与半监督一样)
  • 不准确的监督,其中仅使用粗粒度标签提供训练数据;
  • 不准确的监管,其中给定的标签并不总是真实的。

[1]周志华,弱监督学习的简要介绍,《国家科学评论》,第5卷,第1期,2018年1月,第44–53页,https://doi.org/10.1093/nsr/nwx106