machine-learning - 使用朴素贝叶斯进行文档分类

我相信如果你计算单词出现的文档数量，你的模型会更准确地分类，而不是单词出现的次数。换句话说

分类“提及水果”：

“我喜欢香蕉。”

应该不超过或小于

“香蕉！香蕉！香蕉！我喜欢它们。”

所以问题的答案是100/200 = 0.5。

维基百科上的文档分类说明也支持我的结论

然后给定文档D包含给定C类的所有单词W的概率是

http://en.wikipedia.org/wiki/Naive_Bayes_classifier

换句话说，文档分类算法维基百科描述了测试给定文档包含的分类单词列表的数量。

顺便说一句，更高级的分类算法将检查N字序列，而不仅仅是单个字，其中N可以根据您愿意投入计算的CPU资源量来设置。

<强>更新

我的直接经验是基于简短的文件。我想强调@BenAllison在评论中指出的研究表明我的答案对于较长的文件无效。具体地

一个缺点是，只考虑条款的存在与否，BIM忽略了条款频率中固有的信息。例如，在所有条件相同的情况下，我们可以预期，如果一个单词的出现是一个文档属于一个类的好线索，那么5次出现应该更具预测性。

相关问题涉及文档长度。随着文档变长，使用的不同单词的数量，以及因此在BIM中等于1的x（j）的值的数量通常会增加。

http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.46.1529

使用朴素贝叶斯进行文档分类

1 个答案: