我希望看到"001"
或"100"
或"000"
出现在0
和1
的4个字符的字符串中。例如,4个字符的字符串可能类似于"1100"
或"0010"
或"1001"
或"1111"
。如何使用单个命令匹配字符串中的许多字符串?
我知道grep可以用于模式匹配,但是使用grep,我一次只能检查一个字符串。我想知道多个字符串是否可以与其他命令或grep本身一起使用。
答案 0 :(得分:40)
是的,你可以。 |
模式中的grep
与or
具有相同的含义。因此,您可以使用"001|100|000"
作为模式来测试您的模式。同时,grep
被矢量化,因此所有这一切都可以一步完成:
x <- c("1100", "0010", "1001", "1111")
pattern <- "001|100|000"
grep(pattern, x)
[1] 1 2 3
这将返回一个索引,其中包含哪些向量包含匹配的模式(在本例中为前三个。)
有时使用逻辑向量可以更方便地告诉您向量中的哪些元素匹配。然后,您可以使用grepl
:
grepl(pattern, x)
[1] TRUE TRUE TRUE FALSE
有关R。
中正则表达式的帮助,请参阅?regex
修改强>
为避免手动创建模式,我们可以使用paste
:
myValues <- c("001", "100", "000")
pattern <- paste(myValues, collapse = "|")
答案 1 :(得分:7)
以下是使用stringr
包
require(stringr)
mylist = c("1100", "0010", "1001", "1111")
str_locate(mylist, "000|001|100")
答案 2 :(得分:3)
使用-e参数添加其他模式:
echo '1100' | grep -e '001' -e '110' -e '101'
答案 3 :(得分:1)
您还可以使用%like%
库中的data.table
运算符。
library(data.table)
# input
x <- c("1100", "0010", "1001", "1111")
pattern <- "001|100|000"
# check for pattern
x %like% pattern
> [1] TRUE TRUE TRUE FALSE
答案 4 :(得分:1)
如果您想要逻辑矢量,那么您应该从stri_detect
包检查stringi
函数。在你的情况下,模式是正则表达式,所以使用这个:
stri_detect_regex(x, pattern)
## [1] TRUE TRUE TRUE FALSE
还有一些基准:
require(microbenchmark)
test <- stri_paste(stri_rand_strings(100000, 4, "[0-1]"))
head(test)
## [1] "0001" "1111" "1101" "1101" "1110" "0110"
microbenchmark(stri_detect_regex(test, pattern), grepl(pattern, test))
Unit: milliseconds
expr min lq mean median uq max neval
stri_detect_regex(test, pattern) 29.67405 30.30656 31.61175 30.93748 33.14948 35.90658 100
grepl(pattern, test) 36.72723 37.71329 40.08595 40.01104 41.57586 48.63421 100
答案 5 :(得分:1)
很抱歉这是一个额外的答案,但评论太多了。
我只是想提醒一下,可以通过paste(..., collapse = "|")
粘贴在一起作为单一匹配模式的项目数量是有限的 - 见下文。也许有人可以确定限制的确切位置?不可否认,这个数字可能不太现实,但根据要执行的任务,不应完全排除我们的考虑因素。
对于非常多的项目,需要一个循环来检查模式的每个项目。
set.seed(0)
samplefun <- function(n, x, collapse){
paste(sample(x, n, replace=TRUE), collapse=collapse)
}
words <- sapply(rpois(10000000, 8) + 1, samplefun, letters, '')
text <- sapply(rpois(1000, 5) + 1, samplefun, words, ' ')
#since execution takes a while, I have commented out the following lines
#result <- grepl(paste(words, collapse = "|"), text)
# Error in grepl(pattern, text) :
# invalid regular expression
# 'wljtpgjqtnw|twiv|jphmer|mcemahvlsjxr|grehqfgldkgfu|
# ...
#result <- stringi::stri_detect_regex(text, paste(words, collapse = "|"))
# Error in stringi::stri_detect_regex(text, paste(words, collapse = "|")) :
# Pattern exceeds limits on size or complexity. (U_REGEX_PATTERN_TOO_BIG)