Weka POS标记+标记化

时间:2016-06-28 06:30:03

标签: machine-learning weka sentiment-analysis text-classification pos-tagger

我是 Weka 的新手。我正在尝试感伤分类电影评论。问题是,我可以理解StringToWord向量,它对单词出现进行标记化和属性化。我想将Part Of Speech标签添加到属性词汇表中,但我还是坚持如何?

以前有人试过这个吗?

拜托,你能指导我吗?

P.S。我使用 OpenNLP 进行POS标记和 Weka J48分类器 !!

1 个答案:

答案 0 :(得分:0)

试错方法:

执行诸如将POStagged数据写入文本文件然后执行word2vec之类的操作。然后检查一个单词和一个POStag之间的距离,最接近的是它的POS?

然后会出现类似邻近标签距离可能相同的问题!

否则你可以在那之后使用RegEx,绝对值得一试。

但是做第一个并分享结果! :)