Scikit分类比较/排名

时间:2015-04-22 02:48:31

标签: python scikit-learn classification

我是scikit的新手,我正在关注这里的例子

http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html#exercise-3-cli-text-classification-utility

然而,我想知道,我想要分类的字符串A和B是否都归类于Naiive Bayes的同一文档组,我是否能够找出哪个字符串更有可能被分类在文件组下?

例如,如果文档组是“计算机图形”并且我有一个字符串“Computers is cool”,而另一个字符串“OpenGL和CUDA很酷”,那么它们都可能被归类在该文档组下,第二个字符串可能会更强烈地归类于该字符串,因为它的tf-idf分数可能更高。在我对它们进行分类之后,有没有办法让我找到它,以便我能找出哪个字符串是该类别的更强代表?

1 个答案:

答案 0 :(得分:2)

scikit中的许多分类器都有一个方法predict_proba,它返回给定测试数据落入任何可用输出类别的预测概率。 (例如,Here是Gaussian Naive Bayes的一个。)您可以使用它来确定模型对分类的信心度。