我理解有监督和无监督学习之间的区别:
有监督的学习是一种教学方式"分类器,使用标记数据。
无监督学习让分类器自行学习",例如,使用群集。
但是什么是"弱监督学习"?它如何对它的例子进行分类?
答案 0 :(得分:21)
简而言之:在弱监督学习中,您使用有限数量的标记数据。
如何选择此数据,具体取决于方法。通常,您使用有限数量的数据,这些数据很容易获得和/或产生真正的差异,然后学习其余的数据。我认为bootstrapping是一种可用于弱监督学习的方法,但正如Ben的评论所示,这不是普遍接受的观点。
例如,请参阅this dissertation以获得一个很好的概述(但我不确定半监督和弱监督学习之间的区别是否被普遍接受),它表示以下关于自举/弱监督学习的内容:
Bootstrapping,也称为自我训练,是一种学习方式 旨在使用更少的训练样例,因此有时 被称为弱监督。 Bootstrapping从一些培训开始 例子,训练分类器,并使用思想积极 由该分类器产生的用于再培训的例子。作为一套 训练样例增长,分类器改进,只要不是 太多的负面例子被误解为积极的,这可能 导致业绩恶化。
例如,在词性标注的情况下,通常会在10,000个单词上训练HMM(或最大熵或其他)标签,每个单词都带有POS。在弱监督标记的情况下,您可能只使用一个非常小的100个单词的语料库。你得到一些标记器,你用它来标记1000个单词的语料库,你训练一个标记器并用它来标记更大的语料库。显然,你必须比这更聪明,但这是一个好的开始。 (有关自举标记器的更高级示例,请参阅this paper)
注意:弱监督学习也可以指带有嘈杂标签的学习(这种标签可以但不需要是自举的结果)
答案 1 :(得分:18)
答案 2 :(得分:1)
如Jirka所述,弱监督需要对小的标记数据集进行初始(监督)训练,对较大集合进行预测,并将(无监督)正面识别的实例(或其特征)纳入模型(通过重新放大放大的数据集或直接更新模型)。迭代(无监督)更新的过程直到达到某个目标。显然,如果初始预测器产生许多误报,这很容易出错,但是在某些情况下,搜索空间可以被约束,以便通过弱监督获得的泛化不会(经常)无法运行,或者用户输入可以是过去(弱)监督学习过程。为了提供不在文本挖掘中的补充,非常成功的例子,PSI-BLAST迭代地精炼蛋白质序列谱以识别远程同源物。可以在此paper中找到关于此上下文中这种方法可能出现什么问题的精彩概述。
答案 3 :(得分:1)
本文[1]定义了3种典型的弱监督类型:
[1]周志华,弱监督学习的简要介绍,《国家科学评论》,第5卷,第1期,2018年1月,第44–53页,https://doi.org/10.1093/nsr/nwx106