用于文本分类的词性(POS)标签特征选择

时间:2011-03-31 11:57:52

标签: machine-learning document-classification feature-selection part-of-speech

我使用Stanford POS tagger获得了POS标签句子。例如:

/ DT岛/ NN / / VBD非常/ RB漂亮/ JJ ./。 I / PRP爱/ VBP / PRP ./.

(xml格式也可用)

任何人都可以解释如何从这个POS标签句子中进行特征选择,并使用机器学习方法将它们转换为特征向量进行文本分类。

1 个答案:

答案 0 :(得分:4)

一种简单的开始方式如下(假设词序对于你的分类算法并不重要)。

首先,您需要手动对多个句子进行分类。这是您的训练数据集。通常,您从每个类手动分类的句子越多,您将获得的准确度越高。对于这样的监督方法,请记住,所选择的唯一功能将来自您手动分类的句子。您的所有训练句都是单词/ POS的唯一组合。

最后,您必须选择一个特征选择算法。那里有很多,但一个受欢迎的是卡方。其他一些是信息增益,相互信息等。使用卡方,您将单独测量类变量对每个特征的依赖性。您可以选择一些阈值,例如具有最低卡方值的特征的前10%,并且仅保留这些特征以便稍后在分类器中使用。

特征选择算法的选择很重要,需要反映您正在使用的算法。例如,当您想要找到与您的班级正面和负面相关的特征时,卡方是好的。在其他情况下,您可能只需要正相关的功能,因此您需要选择另一种算法或修改现有算法。

希望有所帮助, William Riley-Land