应用错误收集

哪个分类器在处理属于没有训练过的类的测试查询时是有效的？

时间：2015-04-27 10:03:17

标签： machine-learning classification svm text-classification

假设分类器训练有5个类，输入查询内容不属于任何训练过的类数据。

Naive bayes在这里提供了随机类。哪种分类器在这种情况下处理得最好？

1 个答案:

答案 0 :(得分：1)

如果我理解你的设置正确，你应首先应用一个特殊的分类器，以区分属于已知类的测试实例和属于未知类的测试实例（小说，异常值）。此任务称为新颖，或异常，或异常值检测，请参阅wiki或scikit-learn tutorial。然后，为了将内联类分为5个类，您可以使用任何普通的分类器，如NB。

根据您的数据的具体情况，有很多方法;根据经验，尝试One-class SVM或基于距离的方法，如（covariance.EmpiricalCovariance）或（covariance.MinCovDet）来自scikit-learn或更简单的k近邻。