Question

var1是一个字符向量

var1 <- c("tax evasion", "all taxes", "payment")

和var2是另一个字符向量

var2 <- c("bill", "income tax", "sales taxes")

想要比较var1和var2并提取具有部分单词匹配的术语，例如，在这种情况下，所需答案将是以下字符向量：

"tax evasion", "all taxes", "income tax", "sales taxes"

我试过

sapply(var1, grep, var2, ignore.case=T,value=T)

但没有得到理想的答案。怎么办呢？

感谢。

Answer 1

你可以这样做（我使用magrittr包来清楚代码）：

library(magrittr)

findIn = function(u, v)
{
    strsplit(u,' ') %>%
        unlist %>%
        sapply(grep, value=T, x=v) %>%
        unlist %>%
        unique
}

unique(c(findIn(var1, var2), findIn(var2, var1)))
#[1] "income tax"  "sales taxes" "tax evasion" "all taxes"

Answer 2

可能你需要

lst1 <- strsplit(var1, ' ')
lst2 <- strsplit(var2, ' ')

indx1 <- sapply(lst1, function(x) any(grepl(paste(unlist(lst2), 
       collapse="|"), x)))
indx2 <- sapply(lst2, function(x) any(grepl(paste(unlist(lst1),
       collapse="|"), x)))
c(var1[indx1], var2[indx2])
#[1] "tax evasion" "all taxes"   "income tax"  "sales taxes"

如果var1和var2之间有交集，请在@ColonelBeauvel的优雅解决方案中使用unique换行。

R匹配字符向量

2 个答案: