R:在tagPOS标记之后如何解开句子

时间:2013-07-17 10:55:39

标签: regex r opennlp

我已使用 tagPOS 将部分语音标记为字符串 现在我想取消标记字符串,然后像往常一样回来。

library(openNLP)
str <- "this is the a demo string. Which is used to show tagPOS capability.
And I want to untagged the tagged sentence.
Kindly help to do this."
tagged_str <-  tagPOS(str)
print(tagged_str)

输出:

“这个/ DT是/ VBZ / DT a / DT演示/ NN字符串./NN / / WDT是/ VBZ使用/ VBN到/ TO显示/ VB tagPOS / NNS能力./。 和/ CC I / PRP希望/ VBP到/ TO无标记/ VB / DT标记/ JJ语句./NN请/ RB帮助/ VB到/ TO做/ VB这个./。“

期望输出:

这是一个演示字符串。用于显示tagPOS功能。     我想要标记标记的句子。     请帮助这样做。“

1 个答案:

答案 0 :(得分:1)

以下是一种可能的解决方案:

paste(sapply(strsplit(tagged_str, "/|\\s"), "[", c(TRUE, FALSE)), collapse = " ")

修改

根据您的新请求。有点不同的方法:

paste(unlist(strsplit(tagged_str, "/[[:upper:]]*\\s|/\\.")), collapse = " ")