如何使用PoS标签作为Naive Bayes分类器训练数据的功能?

时间:2015-06-27 16:45:39

标签: text-extraction pos-tagger information-extraction naivebayes

我正在研究如何从文档中提取关键短语

在我的研究中,我使用Naive Bayes分类器机器学习来创建候选术语特征的训练模型。其中一个功能是 PoS标记,我认为此功能对于指定术语是否是关键短语非常重要。

朴素贝叶斯(NB)分类器的输入是数字,而PoS标记是一个字符串。

所以我不知道将PoS标签功能表示为数字的方式,以便成为NB分类器的输入功能

请帮助我提出建议。

谢谢和问候, Hien Su

1 个答案:

答案 0 :(得分:2)

您可以将POS标记视为单词。然后你可以使用POS unigram,bigram或trigram作为功能。

示例:

他们/ PRP拒绝/ VBP到/ TO许可/ VB us / PRB到/ TO获得/ VB / DT拒绝/ NN许可/ NN。

如果你把POS三元组作为功能。您可以构造具有以下特征的向量。

Feature          Value
(PRP,VBP,TO)      1
(VBP,TO,VB)       1 
(TO,VB,PRB)       1

等等。

您还可以将tf-idf值用于POS功能。