R朴素贝叶斯输出(混淆矩阵)优化

时间:2016-07-18 13:54:43

标签: r naivebayes confusion-matrix

使用R Naive Bayes包我试图找到一个预测特征的好模型。

假设我有12列。假设我的列车有600K行,测试集有150K行。

第12列(比如X)是我试图使用前11个因子行预测的那个。 使用下面的代码

nb_model = naiveBayes(train[,1:11], train[,12])
prediction = predict(nb_model,test[,-12])
str(prediction)
length(prediction)
table(pred=prediction,test[,12])
confusionMatrix(prediction,test[,12])

我在真实的假设上得到的准确度很低。

           Actual False | Actual True
Pred False       115442 |       24862
Pred True          4559 |        5137

我感觉我的TRUE POSITIVES由TRAIN集中的FALSE值支配,因为POSITIVES与ALL VALUES的比率是1/5。但预测真正的积极性/所有积极甚至不到1/5意味着比随机更糟糕!

问题我如何设置一些阈值等,以便我可以计算更多真正的正面预测?现在我不关心TP /(TP + NP)率。

感谢。

0 个答案:

没有答案