我试图在文本挖掘过程中做POS标记。
这是我的POS标签结果格式。
Word & POS Tag
1 cmp/NN conditioner/NN
2 contains/VBZ the/DT grinding/VBG
3 diamond/NN
但它与POS标签混合在一起。 我更喜欢这样的格式:
Word POS Tag
1 cmp conditioner NN-NN
2 contains the grinding VBZ-DT-VBG
3 diamond NN
无论如何都要在R ??
中激活单词和POS标签答案 0 :(得分:2)
用空字符串替换/分别前后的部分。没有包使用。
cbind(gsub("/\\w+", "", L), gsub(" ", "-", gsub("\\w+/", "", L)))
,并提供:
[,1] [,2]
[1,] "cmp conditioner" "NN-NN"
[2,] "contains the grinding" "VBZ-DT-VBG"
[3,] "diamond" "NN"
注意:以可重现的形式输入假定为:
L <- c("cmp/NN conditioner/NN", "contains/VBZ the/DT grinding/VBG", "diamond/NN")