朴素贝叶斯分类器:数据集样本数量问题

时间:2018-05-03 02:49:44

标签: algorithm machine-learning naivebayes

我一直在研究文本分类问题。我正在使用一个朴素的贝叶斯文本分类器,如here所示。

该文本被分类为CLASS1和CLASS2。我正在使用18个样本的数据集。由此,3个样本属于CLASS1,18个属于CLASS2。

问题是当没有检测到两个类的单词时,预期的输出应该是NOTIDENTIFIED。

实际上,由于样本数据集的大小不同,它将输出作为CLASS2,因为类概率大于CLASS1。

如何将输出设为NOTIDENTIFIED?

0 个答案:

没有答案