从df中删除特定的单词和符号

时间:2019-02-01 15:49:32

标签: r word

我有一个这样的数据框结构,有39行

        text.
  "A" OR "B" OR "C"
  "C" OR "D" OR "E"

和我要删除的单词的“黑名单”,以符号开头和结尾。(200个单词)在此示例:

   blackList
      "A"
      "D"

我想从起始数据框中删除它们,获得:

        text.
    OR "B" OR "C"
    "C" OR OR "E"

我该怎么办?我尝试使用removeWords,但是它没有读取符号

2 个答案:

答案 0 :(得分:1)

我们可以通过将所有列入黑名单的项目与“ |”一起粘贴来创建模式作为可折叠参数,然后将其全部删除。

df$text <- gsub(paste0(blacklist$blackList, collapse = "|"), "", df$text)

df
#            text
#1  OR "B" OR "C"
#2 "C" OR  OR "E"

数据

df <- data.frame(text = c('"A" OR "B" OR "C"','"C" OR "D" OR "E"'))
blacklist <- data.frame(blackList = c('"A"', '"D"'))

答案 1 :(得分:0)

gsub('\"A\"', "", '"A" OR "B" OR "C"')

使用反斜杠转义引号,并使用gsub