如何对不属于我在文本分类中必须属于“未知”类别的文本进行分类?

时间:2018-09-03 12:52:32

标签: nlp text-classification

我正在研究一个NLP问题,以将文本分为四个类别。 1.体育 2.娱乐 3.占星术 4.未知

我为体育,娱乐,占星术创建了训练数据集。但是如何为“未知”类别创建训练数据集,或者如何将不属于前三个类别的文本分类为最后一个类别,即“未知类别”

1 个答案:

答案 0 :(得分:0)

我会选择不属于前三类的文档/文本。

这里有一个重要的问题,与其他类中的文档数量相比,文档数量可能会非常高,因此,您可能要做的是对子样本进行抽样(例如,随机抽样)选择许多Unknown类的文档。