我正在研究如何从文档中提取关键短语。
在我的研究中,我使用Naive Bayes分类器机器学习来创建候选术语特征的训练模型。其中一个功能是 PoS标记,我认为此功能对于指定术语是否是关键短语非常重要。
但朴素贝叶斯(NB)分类器的输入是数字,而PoS标记是一个字符串。
所以我不知道将PoS标签功能表示为数字的方式,以便成为NB分类器的输入功能。
请帮助我提出建议。
谢谢和问候, Hien Su
答案 0 :(得分:2)
您可以将POS标记视为单词。然后你可以使用POS unigram,bigram或trigram作为功能。
示例:
他们/ PRP拒绝/ VBP到/ TO许可/ VB us / PRB到/ TO获得/ VB / DT拒绝/ NN许可/ NN。
如果你把POS三元组作为功能。您可以构造具有以下特征的向量。
Feature Value
(PRP,VBP,TO) 1
(VBP,TO,VB) 1
(TO,VB,PRB) 1
等等。
您还可以将tf-idf值用于POS功能。