我已使用 tagPOS 将部分语音标记为字符串 现在我想取消标记字符串,然后像往常一样回来。
library(openNLP)
str <- "this is the a demo string. Which is used to show tagPOS capability.
And I want to untagged the tagged sentence.
Kindly help to do this."
tagged_str <- tagPOS(str)
print(tagged_str)
输出:
“这个/ DT是/ VBZ / DT a / DT演示/ NN字符串./NN / / WDT是/ VBZ使用/ VBN到/ TO显示/ VB tagPOS / NNS能力./。 和/ CC I / PRP希望/ VBP到/ TO无标记/ VB / DT标记/ JJ语句./NN请/ RB帮助/ VB到/ TO做/ VB这个./。“
期望输出:
这是一个演示字符串。用于显示tagPOS功能。 我想要标记标记的句子。 请帮助这样做。“
答案 0 :(得分:1)
以下是一种可能的解决方案:
paste(sapply(strsplit(tagged_str, "/|\\s"), "[", c(TRUE, FALSE)), collapse = " ")
修改强>
根据您的新请求。有点不同的方法:
paste(unlist(strsplit(tagged_str, "/[[:upper:]]*\\s|/\\.")), collapse = " ")