我最近了解到有监督的学习是如何运作的。它学习标记数据集并预测未标记的数据。
但是,我有一个问题,即用已预测的数据教授创建的模型,然后再次预测未标记的数据。并重复这个过程。
例如,模型M由10个标记的数据集D创建,然后模型M预测数据A.然后,数据A被添加到数据集D中并再次创建模型M.使用大量不可预测的数据重复该过程。
答案 0 :(得分:2)
您在这里描述的是一种众所周知的技术,称为(以及其他名称)" 自我培训"或" 自我半监督培训"。请参阅幻灯片https://www.cs.utah.edu/~piyush/teaching/8-11-print.pdf。围绕这个想法有各种修改。不幸的是,一般来说很难证明它应该有所帮助,所以虽然它对某些数据集有帮助,但其他数据集却很难。这里的主要标准是第一个模型的质量,因为selftraining基于假设,你的原始模型非常好,因此你可以信任它足以标记新的例子。它可能有助于缓慢的概念漂移与强大的模型,但将失败与弱模型失败。
答案 1 :(得分:-1)
您所描述的内容称为online machine learning,增量监督学习,可更新分类器......有许多算法可以完成这些行为。请参阅weka toolbox Updateable Classifiers。 我建议看下面的内容。