我们可以使用class_log_prior和feature_log_prob_来打印类别概率和特征概率(似然度)。当我尝试将自己的计算与MultinomialNB sklearn进行比较时,类日志优先级是匹配的,但与功能日志概率不匹配。 我已经观看了有关此内容的youtube视频,并按照此处http://scikit-learn.org/stable/modules/naive_bayes.html#multinomial-naive-bayes上他们网站上的公式进行操作,但是,我们的功能日志概率值并不相同。我有很多功能,而且是分类的,例如单词,postag,下一个单词,下一个下一个单词,二义字等。
通过阅读方程式得到的是
P(X | y)=(类别y中的特征X数量+ alpha)/(类别y中的所有特征数量+类别中的唯一特征数量)
因此,如果我具有Word:Hello功能,并且我的类是命名实体OTHER,并且我将alpha设置为1.0,它将变为:
P(word:hello | OTHER)=(OTHER类中Word:Hello的数量+ 1)/(OTHER类中所有特征的数量+ CLASS中独特特征的数量)
这是正确的吗?或者在用多个功能表示方程式时我错了吗?有人算过吗?或者也许可以在excel中举一些例子?