标签: algorithm machine-learning naivebayes
我一直在研究文本分类问题。我正在使用一个朴素的贝叶斯文本分类器,如here所示。
该文本被分类为CLASS1和CLASS2。我正在使用18个样本的数据集。由此,3个样本属于CLASS1,18个属于CLASS2。
问题是当没有检测到两个类的单词时,预期的输出应该是NOTIDENTIFIED。
实际上,由于样本数据集的大小不同,它将输出作为CLASS2,因为类概率大于CLASS1。
如何将输出设为NOTIDENTIFIED?