我通过绘制相应的学习曲线,比较了NLTK和Scikits中两种Naive Bayes实现的性能(伯努利版本,类先验并不重要,因为我使用的是每个类的训练样例量相同)因为我的3级问题。 X轴是训练数据集大小(忘记实际值),Y是准确度。 Here is我得到了什么。
这种性能差异的原因是什么?
答案 0 :(得分:1)
NLTK没有实施伯努利朴素贝叶斯。相反,它的NaiveBayesClassifier
使用多项NB决策规则和布尔特征。
虽然有时会推荐多项式和伯努利NB部分的组合(例如Jurafsky and Manning用于情感分析),但它通常代表两个世界中最差的,并且很可能是错误的结果。