应用错误收集

三种朴素贝叶斯分类器的差异

时间：2018-02-02 10:32:51

标签： python machine-learning naivebayes

对于一些语法错误和误用词语感到抱歉。

我目前正在处理文字分类，试图对电子邮件进行分类。

经过我的研究，我发现Multinomial Naive Bayes和Bernoulli Naive Bayes更常用于文本分类。伯努利只关心这个词是否发生。多项关心单词的出现次数。

对于高斯朴素贝叶斯，它通常用于连续数据和具有正态分布的数据，例如：高度，重量但是我们不使用高斯朴素贝叶斯进行文本分类的原因是什么？如果我们将它应用于文本分类，会发生任何不好的事情吗？

2 个答案:

答案 0 :(得分：0)

贝叶斯分类器使用概率规则，您提到的三个规则与以下规则相关：

贝叶斯概率：https://en.wikipedia.org/wiki/Bayesian_probability
高斯分布：https://en.wikipedia.org/wiki/Normal_distribution
伯努利分布：https://en.wikipedia.org/wiki/Bernoulli_distribution
多项分布：https://en.wikipedia.org/wiki/Multinomial_distribution

您必须选择要使用的概率规则（或全部尝试）。

我认为您在网站或研究论文中阅读的内容与电子邮件数据通常遵循伯努利或多项分布的事实有关。您可以并且我鼓励您尝试使用高斯分布，如果您的数据可以拟合为高斯分布，您应该非常快速地计算出来。

但是，我建议您阅读上面的链接，如果您感觉解决方案A或B比解决方案C效果更好的原因，您将更好地了解您的工作。

答案 1 :(得分：0)

我们使用基于我们拥有的数据集类型的算法。伯努利朴素贝叶斯擅长处理布尔/二进制属性，而多项朴素贝叶斯擅长处理离散值，高斯朴素贝叶斯擅长处理连续值。考虑三种情况 1）考虑一个包含 has_diabetes、has_bp、has_thyroid 等列的数据集，然后将这个人分类为健康与否。在这种情况下，Bernoulli NB 会很好地工作。 2）考虑一个数据集，该数据集具有不同学科的不同学生的分数，并且您想预测该学生是否聪明。那么在这种情况下，多项式 NB 会正常工作。 3）考虑一个有学生体重的数据集，你正在预测他们的身高，那么 GaussiaNB 在这种情况下会很好。