我有数千个因素(分类变量),我正在应用Naive Bayes的分类。
我的问题是我的数据集中有很多因素出现很少次,因此它们似乎会降低我预测的性能。
事实上,我注意到如果我删除了几次发生的分类变量,我的准确性就显着提高了。但理想情况下,我想保留所有因素,你知道这样做的最佳做法是什么?
非常感谢。
答案 0 :(得分:0)
评论太长了。
最低频率项可能会对准确性产生负面影响,因为没有足够的数据来进行准确的预测。因此,训练集中的观察结果可能与验证集无关。
您可以将所有最低频率的观测值合并为一个值。副手,我不知道正确的门槛是多少。你可以从拍摄5次或更少次的事情开始,然后把它们混在一起。