使用grepl从模式列表中查找匹配的模式

时间:2015-07-22 13:11:38

标签: regex r string grepl

我使用grepl检查一个字符串是否包含一组模式中的任何模式(我使用' |'来分隔模式)。反向搜索没有帮助。如何识别匹配的模式集?

附加信息:这可以通过编写循环来解决,但由于我的设置有>这非常耗时。 100,000字符串。可以优化吗?

例如:让字符串为a <- "Hello"

pattern <- c("ll", "lo", "hl")

pattern1 <- paste(pattern, collapse="|") # "ll|lo|hl"

grepl(a, pattern=pattern1) # returns TRUE

grepl(pattern, pattern=a) # returns FALSE 'n' times - n is 3 here

2 个答案:

答案 0 :(得分:7)

您正在寻找str_detect包中的stringr

library(stringr)

str_detect(a, pattern)
#[1]  TRUE  TRUE FALSE

如果你有多个字符串,例如a = c('hello','hola','plouf'),你可以这样做:

lapply(a, function(u) pattern[str_detect(u, pattern)])

答案 1 :(得分:1)

由于模式重叠,您还可以使用基准R和超前表达式(?=)。使用gregexpr,您可以将每个分组模式的匹配位置提取为矩阵。

## changed your string so the second pattern matches twice
a <- "Hellolo"
pattern <- c("ll", "lo", "hl")
pattern1 <- sprintf("(?=(%s))", paste(pattern, collapse=")|(")) #  "(?=(ll)|(lo)|(hl))"

attr(gregexpr(pattern1, a, perl=T)[[1]], "capture.start")
# [1,] 3 0 0
# [2,] 0 4 0
# [3,] 0 6 0

矩阵的每一列对应于模式,因此模式2匹配测试字符串中的位置4和6,模式1匹配位置3,依此类推。