标签: python nlp classification feature-selection text-classification
我有大约120k的文本文件,以及我希望将这些文档分类到的12个类别。 我使用简单的单词袋模型,并将其喂给NaiveBayes。但有人告诉我,使用各种功能可以帮助"或者说我应该至少尝试一下。例如: -
1.] POS tags + Bigrams, 2.] Bag-of-NER + POS tags
但问题是如何将这两个/三个不同的功能组合为每个文档的单一功能? 其次"特征混合"是最好的文档分类帮助?
答案 0 :(得分:1)
您可以尝试以下操作:
对于每个文档,计算例如Bag of words vector和Bigrams vector。
连接两个向量以获得一个大的稀疏向量。
使用一些可以找到低维嵌入的降维技术,其中每个要素都是原始要素的组合。 您可以尝试PCA或LDA(线性判别分析)。