应用错误收集

在Naive Bayes框架中，没有什么可以阻止您添加不基于词袋表示的其他功能。假设你有一个基于你的词袋特征的类似然p（document | class_1）= l_1。您有理由相信某些二元功能b_1和b_2也有助于分类（这些功能可以分别包含日期和时间，以使示例具体化）。

您估计概率p（b_1 = 1 | class_1）=（1级中的文档数量，b_1 = 1）/（类1中的#of文档）--- p（b_1 = 0 | class_1）= 1 - p（b_1 = 1 | class_1）。对于类2执行相同的操作，对于两个类执行功能b_2。现在将这些功能添加到分类规则中特别简单，因为Naive Bayes只是假设功能独立性。所以：

p（class_1 | document）\ propto p（class_1）x l_1 x p（b_1 | class_1）x p（b_2 | class_1）

其中l_1表示与之前相同（基于BOW特征的可能性），对于p（b_i | class_1）项，您使用p（b_i = 1 | class_1）或p（b_i = 0 | class_1）项取决于b_i的实际值是多少。这可以以相同的方式扩展到非二进制功能，并且您可以继续添加内容（尽管您应该知道您在功能之间假设独立，并且您可能希望切换到不做出此假设的分类器。）

Naive Bayes文本分类器，具有hasDate，hasLocation，first word等功能

1 个答案: