使用R Naive Bayes包我试图找到一个预测特征的好模型。
假设我有12列。假设我的列车有600K行,测试集有150K行。
第12列(比如X)是我试图使用前11个因子行预测的那个。 使用下面的代码
nb_model = naiveBayes(train[,1:11], train[,12])
prediction = predict(nb_model,test[,-12])
str(prediction)
length(prediction)
table(pred=prediction,test[,12])
confusionMatrix(prediction,test[,12])
我在真实的假设上得到的准确度很低。
Actual False | Actual True
Pred False 115442 | 24862
Pred True 4559 | 5137
我感觉我的TRUE POSITIVES由TRAIN集中的FALSE值支配,因为POSITIVES与ALL VALUES的比率是1/5。但预测真正的积极性/所有积极甚至不到1/5意味着比随机更糟糕!
问题我如何设置一些阈值等,以便我可以计算更多真正的正面预测?现在我不关心TP /(TP + NP)率。
感谢。