Question

我试图在文本挖掘过程中做POS标记。

这是我的POS标签结果格式。

  Word & POS Tag
1 cmp/NN conditioner/NN
2 contains/VBZ the/DT grinding/VBG
3 diamond/NN

但它与POS标签混合在一起。我更喜欢这样的格式：

  Word                     POS Tag
1 cmp conditioner          NN-NN
2 contains the grinding    VBZ-DT-VBG
3 diamond                  NN

无论如何都要在R ??

中激活单词和POS标签

Answer 1

用空字符串替换/分别前后的部分。没有包使用。

cbind(gsub("/\\w+", "", L), gsub(" ", "-", gsub("\\w+/", "", L)))

，并提供：

     [,1]                    [,2]        
[1,] "cmp conditioner"       "NN-NN"     
[2,] "contains the grinding" "VBZ-DT-VBG"
[3,] "diamond"               "NN"

注意：以可重现的形式输入假定为：

L <- c("cmp/NN conditioner/NN", "contains/VBZ the/DT grinding/VBG", "diamond/NN")

R：如何基于符号拆分特定列？

1 个答案: