machine-learning - 什么是弱监督学习（bootstrapping）？

什么是弱监督学习（bootstrapping）？

时间：2013-09-22 14:21:42

标签： machine-learning classification

我理解有监督和无监督学习之间的区别：

有监督的学习是一种教学方式＆＃34;分类器，使用标记数据。

无监督学习让分类器自行学习＆＃34;，例如，使用群集。

但是什么是＆＃34;弱监督学习＆＃34;？它如何对它的例子进行分类？

4 个答案:

答案 0 :(得分：21)

简而言之：在弱监督学习中，您使用有限数量的标记数据。

如何选择此数据，具体取决于方法。通常，您使用有限数量的数据，这些数据很容易获得和/或产生真正的差异，然后学习其余的数据。我认为bootstrapping是一种可用于弱监督学习的方法，但正如Ben的评论所示，这不是普遍接受的观点。

例如，请参阅this dissertation以获得一个很好的概述（但我不确定半监督和弱监督学习之间的区别是否被普遍接受），它表示以下关于自举/弱监督学习的内容：

Bootstrapping，也称为自我训练，是一种学习方式旨在使用更少的训练样例，因此有时被称为弱监督。 Bootstrapping从一些培训开始例子，训练分类器，并使用思想积极由该分类器产生的用于再培训的例子。作为一套训练样例增长，分类器改进，只要不是太多的负面例子被误解为积极的，这可能导致业绩恶化。

例如，在词性标注的情况下，通常会在10,000个单词上训练HMM（或最大熵或其他）标签，每个单词都带有POS。在弱监督标记的情况下，您可能只使用一个非常小的100个单词的语料库。你得到一些标记器，你用它来标记1000个单词的语料库，你训练一个标记器并用它来标记更大的语料库。显然，你必须比这更聪明，但这是一个好的开始。（有关自举标记器的更高级示例，请参阅this paper）

注意：弱监督学习也可以指带有嘈杂标签的学习（这种标签可以但不需要是自举的结果）

答案 1 :(得分：18)

监管不力是带有嘈杂标签的监督。例如，bootstrapping，其中bootstrapping过程可能会错误地标记一些示例。
远程监督是指不直接标记示例的训练信号;例如，从问答数据集中学习语义解析器。
半监督学习是指您有一个部分标记且部分未标记的数据集。
全面监督学习是指每个数据点都有基本真值标签。

答案 2 :(得分：1)

如Jirka所述，弱监督需要对小的标记数据集进行初始（监督）训练，对较大集合进行预测，并将（无监督）正面识别的实例（或其特征）纳入模型（通过重新放大放大的数据集或直接更新模型）。迭代（无监督）更新的过程直到达到某个目标。显然，如果初始预测器产生许多误报，这很容易出错，但是在某些情况下，搜索空间可以被约束，以便通过弱监督获得的泛化不会（经常）无法运行，或者用户输入可以是过去（弱）监督学习过程。为了提供不在文本挖掘中的补充，非常成功的例子，PSI-BLAST迭代地精炼蛋白质序列谱以识别远程同源物。可以在此paper中找到关于此上下文中这种方法可能出现什么问题的精彩概述。

答案 3 :(得分：1)

本文[1]定义了3种典型的弱监督类型：

不完全监督，其中只有一部分训练数据带有标签；（我认为这与半监督一样）
不准确的监督，其中仅使用粗粒度标签提供训练数据；
和不准确的监管，其中给定的标签并不总是真实的。

[1]周志华，弱监督学习的简要介绍，《国家科学评论》，第5卷，第1期，2018年1月，第44–53页，https://doi.org/10.1093/nsr/nwx106