具有正数和未标记数据集的二进制半监督分类

时间:2014-09-06 13:21:39

标签: scikit-learn classification

我的数据由评论(保存在文件中)组成,其中很少被标记为肯定。我想使用半监督和PU分类将这些评论分类为正面和负面类。我想知道在python(scikit-learn)中是否有半监督和PU实现的公开实现?

1 个答案:

答案 0 :(得分:3)

您可以尝试训练一类SVM,看看能给您带来什么样的结果。我还没有听说过PU纸。我认为,出于所有实际目的,你会更好地标记一些点然后使用半监督方法。 如果发现负面点很难,我会​​尝试使用启发式方法来找出推定的负面点(我认为这与PU论文中的技术类似)。您可以将未标记与正数分类,然后仅查看未标记的分数,或者学习单类SVM或类似物,然后在异常值中查找负点。

如果您对实际解决任务感兴趣,我宁愿花时间进行手动标记而不是实施花哨的方法。