为什么BernoulliNBC与虹膜数据集上的GaussianNBC或MultinomialNBC相比表现更差?

时间:2014-09-24 07:37:14

标签: python machine-learning scikit-learn classification

 from sklearn import datasets
 iris = datasets.load_iris()
 from sklearn.naive_bayes import GaussianNB, MultinomialNB, BernoulliNB
 gnb = GaussianNB()
 y_pred = gnb.fit(iris.data, iris.target).predict(iris.data)
 print("Number of mislabeled points out of a total %d points : %d" % (iris.data.shape[0],(iris.target != y_pred).sum()))

 mnb = MultinomialNB()
 y_pred_mnb = mnb.fit(iris.data, iris.target).predict(iris.data)
 print("Number of mislabeled points out of a total %d points : %d" % (iris.data.shape[0],(iris.target != y_pred_mnb).sum()))

 bnb = BernoulliNB()
 y_pred_bnb = bnb.fit(iris.data, iris.target).predict(iris.data)
 print("Number of mislabeled points out of a total %d points : %d" % (iris.data.shape[0],(iris.target !=    y_pred_bnb).sum()))

输出如下:
     总共150分中错误标记的点数:6
     总共150分中错误标记的点数:7
     总共150分中错误标记的点数:100

伯努利朴素贝叶斯分类器错误标记100,这比其他人更多。你能解释一下原因吗?

1 个答案:

答案 0 :(得分:7)

简而言之,高斯朴素贝叶斯模型通常用于连续数据(其中每个要素都是实数),其中基础数据分布假定为高斯(正态)分布

Multinomial Naive Bayes 模型计算数据集中某个事件发生的频率(例如,某个单词在文档中出现的频率)。

Bernoulli Naive Bayes 模型类似于Multinomial Naive Bayes模型,但它不是计算事件发生的频率,而是仅描述事件是否发生(例如是否某个单词出现在文档中,如果它出现一次或100000次并不重要)

现在专门针对包含实值数据的虹膜数据集,GaussianNB将是最合适的模型。 MultinomialNB最合适的典型示例是文本分类。

因此,鉴于您的数据集和每个模型的特征,伯努利朴素贝叶斯模型并没有做得很好也就不足为奇了。更大的惊喜是,多项式朴素贝叶斯模型几乎与高斯模型一样好,尽管它对这个数据集(实际值数据)是不合适的选择。然而,查看数据(我鼓励你这样做)应该给你正确的提示,为什么Multinomial Naive Bayes模型可以达到如此好的表现。

为了深入比较伯努利朴素贝叶斯模型和多项式朴素贝叶斯模型的文本分类,我建议你阅读this论文。

您可能还想查看朴素贝叶斯上的优秀scikit-learn documentation以了解不同模型的概述,最后但并非最不重要的是,朴素贝叶斯分类器上的wikipedia page也提供了一个很好的概述。

<强>更新

正如mbatchkarov在下面的评论中指出的那样,您正在测试和培训相同的数据,这些数据被视为非常不良做法,因此无法从上述结果中得出明确的结论。考虑使用cross validation或至少将数据拆分为训练块和测试块。