提取所有可能字符列表右侧的字符

时间:2018-09-04 13:05:38

标签: r string extract

我在数据框中有一系列字符串,如下所示:

item_time<-c("pink dress july noon", "shirt early september morning", "purple dress 
april", "tall purple shoes february")

我想提取所有可能的字符列表右侧的所有字符,如下所示:

item<-c("pink dress","shirt","purple dress", "tall purple shoes")

我想要的结果看起来像这样:

[1] july noon
[2] early september morning
[3] april
[4] february

我不能用空格分隔它们,因为时间和项目列表中的单词数量不同。我也没有将它们分开的符号。我觉得应该有一个非常简单而优雅的方法来解决这个问题,但我无法弄清楚。

3 个答案:

答案 0 :(得分:1)

您可以使用sub和正则表达式来完成此操作。

Pat = paste0("(.*)(", paste0(item, collapse="|"), ")(.*)")
sub(Pat, "\\3", item_time)
[1] " july noon"               " early september morning"
[3] " april"                   " february"  

详细信息:创建的模式是:

Pat
[1] "(.*)(pink dress|shirt|purple dress|tall purple shoes)(.*)"

"(.*)(pink dress|shirt|purple dress|tall purple shoes)的中间部分匹配您的任何一种模式。第一个(.*)与模式之前的所有内容匹配。第二个(.*)匹配模式之后的所有内容。然后,sub语句将整个字符串替换为模式匹配后的部分。

答案 1 :(得分:1)

另一种方法是使用mapply

mapply(gsub,pattern=item,replacement='',x=item_time)

如果您还想删除itemitem_time右侧之间的空格,可以改用:

mapply(gsub,pattern=paste0(item,' '),replacement='',x=item_time)

答案 2 :(得分:0)

这是使用stringr::str_replace(string, pattern, replacement)的另一种选择,它的优点是可以在stringpattern(以及replacement)上进行矢量化处理。

trimws(stringr::str_replace(item_time, item, ""))
#[1] "july noon"               "early september morning"
#[3] "april"                   "february"

trimws删除前导空格。

请注意,这要求item_timeitem具有成对匹配的条目。