machine-learning - 朴素贝叶斯精度随着alpha值的增加而增加

朴素贝叶斯精度随着alpha值的增加而增加

时间：2018-09-13 18:22:42

标签： machine-learning data-mining cross-validation naivebayes hyperparameters

我正在使用朴素的贝叶斯进行文本分类，我有10万条记录，其中88k条为正类记录，而12k条为负类记录。我使用countvectorizer将句子转换为unigram和bigrams，并从[0,10]的alpha范围取50个值，并绘制了曲线图。

在拉普拉斯加法平滑中，如果我不断增加alpha值，那么交叉验证数据集的准确性也会提高。我的问题是这种趋势是否预期？

2 个答案:

答案 0 :(得分：0)

如果您继续增加alpha值，那么朴素贝叶斯模型将偏向具有更多记录的类，并且该模型将成为哑模型（欠拟合），因此选择较小的alpha值是个好主意。

答案 1 :(得分：0)

因为您有88k正点和12k负点，这意味着您的数据集不平衡。您可以将更多的负点添加到平衡数据集中，也可以克隆或复制负点（我们称为上采样）。之后，您的数据集已经平衡，现在您可以将带有alpha的朴素贝叶斯应用到它，它将正常工作，现在您的模型不是哑模型，而您之前的模型却是哑模型，这就是为什么随着alpha的增加它会提高您的准确性。