哪个分类器在处理属于没有训练过的类的测试查询时是有效的?

时间:2015-04-27 10:03:17

标签: machine-learning classification svm text-classification

假设分类器训练有5个类,输入查询内容不属于任何训练过的类数据。

Naive bayes在这里提供了随机类。哪种分类器在这种情况下处理得最好?

1 个答案:

答案 0 :(得分:1)

如果我理解你的设置正确,你应首先应用一个特殊的分类器,以区分属于已知类的测试实例和属于未知类的测试实例(小说,异常值)。 此任务称为新颖,或异常,或异常值检测,请参阅wikiscikit-learn tutorial。 然后,为了将内联类分为5个类,您可以使用任何普通的分类器,如NB。

根据您的数据的具体情况,有很多方法;根据经验,尝试One-class SVM或基于距离的方法,如(covariance.EmpiricalCovariance)或(covariance.MinCovDet)来自scikit-learn或更简单的k近邻。