标签: python nltk smoothing
我在python中使用Naive Bayes分类器进行文本分类。是否有任何平滑方法可以避免python NLTK中看不见的单词的概率为零?提前谢谢!
答案 0 :(得分:2)
我建议将所有低(特别是1)频率的单词替换为<unseen>,然后在此数据中训练分类器。 对于分类,如果单词不在训练数据中,则应查询<unseen>的模型。
<unseen>