我想从文本中提取线段。 例如:
txt<-"This is some cool text that involves this type of text and not that kind."
extract.context(txt,start="of text",end="that")
"of text and not that"
答案 0 :(得分:1)
这取决于你将要寻找什么。如果您只是搜索字符(没有标点符号),那么这将很好地工作。
extract.context<-function(txt, start, end) {
sapply(regmatches(txt, gregexpr(paste0(start,".*",end),txt)), "[", 1)
}
txt<-"This is some cool text that involves this type of text and not that kind."
extract.context(txt,start="of text",end="that")
# [1] "of text and not that"
此方法使用基本正则表达式,因此如果搜索可能与正则表达式语法匹配的字符,则可能会混淆。如果发生多次匹配,还不清楚你想做什么。现在我回到第一个。但是既然你没有提供很多背景知识,我会假设没关系。