我正在为pos和neg这两个类别构建朴素贝叶斯分类器。我希望分类器将句子分类为pos(如果它包含某些单词),如果不包含这些单词则将其分类为。
我的pos语料库包含518个含有这些词语的句子。我的问题:对于neg的语料库有多大?
在NLTK的movie_reviews语料库中,两个类别都包含相同数量的文本文件。但是,那个分类器也学会了否定词,不是吗?我真的只关心分类器识别属于pos类别的某些词,我不关心neg类中的词。
那么,两个语料库是否包含518个文本文件是否很重要?
答案 0 :(得分:0)
这两个类别没有必要具有相同的大小。