Question

我有大约120k的文本文件，以及我希望将这些文档分类到的12个类别。我使用简单的单词袋模型，并将其喂给NaiveBayes。但有人告诉我，使用各种功能可以帮助＆＃34;或者说我应该至少尝试一下。例如： -

1.] POS tags + Bigrams, 
2.] Bag-of-NER + POS tags

但问题是如何将这两个/三个不同的功能组合为每个文档的单一功能？其次＆＃34;特征混合＆＃34;是最好的文档分类帮助？

Answer 1

您可以尝试以下操作：

对于每个文档，计算例如Bag of words vector和Bigrams vector。

连接两个向量以获得一个大的稀疏向量。

使用一些可以找到低维嵌入的降维技术，其中每个要素都是原始要素的组合。您可以尝试PCA或LDA（线性判别分析）。