如何将不同的功能组合并提供给文本分类算法

时间:2016-01-11 12:46:05

标签: python nlp classification feature-selection text-classification

我有大约120k的文本文件,以及我希望将这些文档分类到的12个类别。 我使用简单的单词袋模型,并将其喂给NaiveBayes。但有人告诉我,使用各种功能可以帮助"或者说我应该至少尝试一下。例如: -

1.] POS tags + Bigrams, 
2.] Bag-of-NER + POS tags 

但问题是如何将这两个/三个不同的功能组合为每个文档的单一功能? 其次"特征混合"是最好的文档分类帮助?

1 个答案:

答案 0 :(得分:1)

您可以尝试以下操作:

对于每个文档,计算例如Bag of words vector和Bigrams vector。

连接两个向量以获得一个大的稀疏向量。

使用一些可以找到低维嵌入的降维技术,其中每个要素都是原始要素的组合。 您可以尝试PCALDA(线性判别分析)。