我在R中以以下形式获得带有POS标签的文字:
id类型的开始结束功能
1字1 5 POS = NNP
2字7 8 POS = IN
.....
我想检索它标记的单词,例如,而不是列'type',所有值都作为单词检索实际单词。我可以使用scan_tokenizer,但是当有“不是”这样的表格时,问题就出现了,这就是POS标签将其分解为“是”和“不是”,这很好但是scan_tokenizer没有标记化,只是将它保持在“不是”。任何人都可以帮我找回R已经标记并用于POS标签的单词吗?
由于
答案 0 :(得分:1)
为什么不使用Illinois POS标签?它易于使用和可视化: