半监督学习使用一组标记数据(L)来训练模型以预测一组未标记数据(U),然后将新标记数据(L')和原始标记数据(L)分组为完整的标签数据。
我想问一下如何提取测试数据。
哪一个是对的?
如果测试数据是从(L union L')中提取的,那么结果没有意义,因为L'中的答案可能是错误的......?
=============================================== ===========编辑新
我有另一个想法.....
3。 我应该在开始时将标记数据(L)分成训练数据(L_train)和测试数据(L_test)。
然后使用L_train训练模型并使用它来预测一组未标记的数据(U),然后将预测结果(L')和L_train分组。
并且,使用(L_train union L')训练模型以测试L_test。
哪一个是1,2,3的权利? 谢谢你的回复。
答案 0 :(得分:2)
您在L
上训练分类器。您可以先执行交叉验证以适合某些方法参数P
。使用参数P
,您可以从标记数据M
构建模型L
。然后,您可以使用模型M
标记未标记的数据U
。您加入U
(对指定班级最有信心)的示例与L
。然后重复该过程,直到所有示例都被分类。
-edit -
我认为最合适的方法是第三种方法。但我可能不理解它,所以这里。
您将L
分为L_train
和L_test
。您使用L_train
训练分类器,并且还使用此分类器对U
进行分类(根据我上面描述的方法)。通过标记为U
和L_train
的联合,您可以构建一个新的分类器,并使用它对L_test
进行分类。这些分类的差异可用于评估措施(分类准确性,......)。