我面临着一个奇怪的问题。我使用来自nltk.classify的NaiveBayesClassifier对文本进行分类,我的问题是它显示出令人难以置信的0.9966准确度。我确信这不可能是真的,我仍然看到我的代码中没有错误。我的意见很大,有40.000个句子用于训练,80.000用于测试。
我正在建立一套由所有负面/正面/中性标记的训练文本组成的训练功能
trainFeats = negFeats + posFeats + neutralFeats
以及由所有负面/正面/中性标记的培训文本组成的一组测试功能
testFeats = negFeats + posFeats + neutralFeats
之后我在trainFeats上训练分类器
classifier = NaiveBayesClassifier.train(trainFeats)
并在所有testFeats上测试
print 'accuracy:', nltk.classify.util.accuracy(classifier, testFeats)
这是正常的结果,我应该把事情视为理所当然吗?因为它表现得非常好。谢谢!