机器学习算法仅对正数和未标记数据进行分类

时间:2014-04-04 20:59:36

标签: algorithm machine-learning weka

我正在尝试仅使用正面特征和未标记数据对文本进行分类。我只是希望算法识别正数据,并希望将其他所有内容标记为否定。什么是一个很好的机器学习算法来分类这样的数据?我尝试在Weka中使用不同的算法,但几乎所有的分类器都会产生很多误报。

1 个答案:

答案 0 :(得分:3)

如果您认为未标记的数据主要是否定数据,那么最好的做法是将所有未标记的数据标记为“否定”并运行您选择的分类器。请注意,如果您获得未标记的测试数据点预测为正数,这并不意味着答案是错误的。您的一些未标记数据可能是积极的。因此,很难判断分类器在您的设置中的表现如何。如果您认为未标记的数据可能偏向于正数,那么您可能最好在正数据上使用所谓的“一类分类器”,有一些流行的例子包括一类SVM。