我是scikit的新手,我正在关注这里的例子
然而,我想知道,我想要分类的字符串A和B是否都归类于Naiive Bayes的同一文档组,我是否能够找出哪个字符串更有可能被分类在文件组下?
例如,如果文档组是“计算机图形”并且我有一个字符串“Computers is cool”,而另一个字符串“OpenGL和CUDA很酷”,那么它们都可能被归类在该文档组下,第二个字符串可能会更强烈地归类于该字符串,因为它的tf-idf分数可能更高。在我对它们进行分类之后,有没有办法让我找到它,以便我能找出哪个字符串是该类别的更强代表?
答案 0 :(得分:2)
scikit中的许多分类器都有一个方法predict_proba
,它返回给定测试数据落入任何可用输出类别的预测概率。 (例如,Here是Gaussian Naive Bayes的一个。)您可以使用它来确定模型对分类的信心度。