文本特征表示作为SVM的向量

时间:2014-11-01 07:40:25

标签: machine-learning nlp text-mining feature-selection semantic-analysis

我正在学习语义角色标签(SRL)任务。我已经阅读了很多内容,现在我遇到了如何将文本特征表示为向量的问题。

例如,对于句子:

We like StackOverflow very much

给出谓词动词:like,其中一些功能是:

the left 1st word: I
the right 1st word: StackOverflow
the POS tag of the left 1st word: Pronoun
The POS tag of the right 1st word: Adverbial

将这些功能表示为向量的正确方法是什么?

如果可能的话,您能否就如何规范这些功能给我一些指导?

我基本上想要使用SVM模型训练具有这些类型功能的数据。

1 个答案:

答案 0 :(得分:1)

使用什么分类器(SVM与否)无关紧要,文本的特征生成是相同的。 我建议你看看这个: Binary Feature Extraction

此库也会让您的生活更轻松: http://cogcomp.cs.illinois.edu/page/software_view/LBJ 这里有一个教程:http://cogcomp.cs.illinois.edu/page/tutorial.201310