半监督学习测试数据

时间:2012-11-20 08:00:59

标签: testing machine-learning training-data

半监督学习使用一组标记数据(L)来训练模型以预测一组未标记数据(U),然后将新标记数据(L')和原始标记数据(L)分组为完整的标签数据。

我想问一下如何提取测试数据。

  1. 我应该从(L union L')
  2. 中提取测试数据
  3. 我应该从(L)
  4. 中提取测试数据

    哪一个是对的?

    如果测试数据是从(L union L')中提取的,那么结果没有意义,因为L'中的答案可能是错误的......?

    =============================================== ===========编辑新

    我有另一个想法.....

    3。 我应该在开始时将标记数据(L)分成训练数据(L_train)和测试数据(L_test)。

    然后使用L_train训练模型并使用它来预测一组未标记的数据(U),然后将预测结果(L')和L_train分组。

    并且,使用(L_train union L')训练模型以测试L_test。

    哪一个是1,2,3的权利? 谢谢你的回复。

1 个答案:

答案 0 :(得分:2)

您在L上训练分类器。您可以先执行交叉验证以适合某些方法参数P。使用参数P,您可以从标记数据M构建模型L。然后,您可以使用模型M标记未标记的数据U。您加入U(对指定班级最有信心)的示例与L。然后重复该过程,直到所有示例都被分类。

-edit -

我认为最合适的方法是第三种方法。但我可能不理解它,所以这里。

您将L分为L_trainL_test。您使用L_train训练分类器,并且还使用此分类器对U进行分类(根据我上面描述的方法)。通过标记为UL_train的联合,您可以构建一个新的分类器,并使用它对L_test进行分类。这些分类的差异可用于评估措施(分类准确性,......)。