标签: nlp text-classification
我正在研究一个NLP问题,以将文本分为四个类别。 1.体育 2.娱乐 3.占星术 4.未知
我为体育,娱乐,占星术创建了训练数据集。但是如何为“未知”类别创建训练数据集,或者如何将不属于前三个类别的文本分类为最后一个类别,即“未知类别”
答案 0 :(得分:0)
我会选择不属于前三类的文档/文本。
这里有一个重要的问题,与其他类中的文档数量相比,文档数量可能会非常高,因此,您可能要做的是对子样本进行抽样(例如,随机抽样)选择许多Unknown类的文档。
Unknown