朴素的贝叶斯分类器:每个类别的语料库大小是否必须相同?

时间:2016-06-08 10:35:01

标签: nlp text-classification naivebayes

我正在为pos和neg这两个类别构建朴素贝叶斯分类器。我希望分类器将句子分类为pos(如果它包含某些单词),如果不包含这些单词则将其分类为。

我的pos语料库包含518个含有这些词语的句子。我的问题:对于neg的语料库有多大?

在NLTK的movie_reviews语料库中,两个类别都包含相同数量的文本文件。但是,那个分类器也学会了否定词,不是吗?我真的只关心分类器识别属于pos类别的某些词,我不关心neg类中的词。

那么,两个语料库是否包含518个文本文件是否很重要?

1 个答案:

答案 0 :(得分:0)

这两个类别没有必要具有相同的大小。