低频术语 - 朴素贝叶斯提高准确性

时间:2017-06-05 19:42:16

标签: r naivebayes

我有数千个因素(分类变量),我正在应用Naive Bayes的分类。

我的问题是我的数据集中有很多因素出现很少次,因此它们似乎会降低我预测的性能。

事实上,我注意到如果我删除了几次发生的分类变量,我的准确性就显着提高了。但理想情况下,我想保留所有因素,你知道这样做的最佳做法是什么?

非常感谢。

1 个答案:

答案 0 :(得分:0)

评论太长了。

最低频率项可能会对准确性产生负面影响,因为没有足够的数据来进行准确的预测。因此,训练集中的观察结果可能与验证集无关。

您可以将所有最低频率的观测值合并为一个值。副手,我不知道正确的门槛是多少。你可以从拍摄5次或更少次的事情开始,然后把它们混在一起。