grep在data.frame中的任何单元格上

时间:2012-01-25 08:24:32

标签: regex r screen-scraping

一个简单的“有更好的方法”问题。我想找出data.frame中的任何单元格是否包含我正在寻找的子字符串:

d=data.frame(V1=c("xxx","yyy","zzz"), V2=c(NA,"ewruinwe",NA))
grepl("ruin",d[2,2])  #TRUE
grepl("ruin",d)  #FALSE FALSE
any(grepl("ruin",as.character(as.matrix(d))))   #TRUE

最后一行做了我想要的,但它看起来很难看,我想知道我是否遗漏了一些更简单的东西。

背景:dt=readHTMLTable(url)(XML包)中的元素之一。我正在做d [2,2]方法,检查错误消息,然后发现网站有时会在HTML表格中添加另一行,将我正在寻找的错误消息推送到另一个单元格。

更新:所以,似乎有两个选择(感谢mathematical.coffee和RomanLuštrik):

any(grepl("ruin",as.matrix(d)))
any(apply(d, 2, function(x) grepl("ruin", x)))

1 个答案:

答案 0 :(得分:8)

这个怎么样?

d=data.frame(V1=c("xxx","yyy","zzz"), V2=c(NA,"ewruinwe",NA))
apply(d, c(1,2), function(x) grepl("ruin", x))
        V1    V2
[1,] FALSE FALSE
[2,] FALSE  TRUE
[3,] FALSE FALSE

如评论中所述,“2”与“c(1,2)”相同。然后给出一个布尔值:

any(apply(d, 2, function(x) grepl("ruin", x)))
[1] TRUE