在openNLP中使用Tokenizer

时间:2014-11-16 13:28:01

标签: nlp opennlp

我在R中以以下形式获得带有POS标签的文字:


id类型的开始结束功能
1字1 5 POS = NNP
2字7 8 POS = IN

.....

我想检索它标记的单词,例如,而不是列'type',所有值都作为单词检索实际单词。我可以使用scan_tokenizer,但是当有“不是”这样的表格时,问题就出现了,这就是POS标签将其分解为“是”和“不是”,这很好但是scan_tokenizer没有标记化,只是将它保持在“不是”。任何人都可以帮我找回R已经标记并用于POS标签的单词吗?

由于

1 个答案:

答案 0 :(得分:1)

为什么不使用Illinois POS标签?它易于使用和可视化:

http://cogcomp.cs.illinois.edu/page/software_view/3

http://cogcomp.cs.illinois.edu/demo/pos/?id=4