Question

我正在使用SQL和R。

开发文本挖掘解决方案

首先我从我的SQL选择中将数据导入R，而不是用数据挖掘它。

这是我得到的：

rawData = sqlQuery(dwhConnect,sqlString) 
a = data.frame(rawData$ENNOTE_NEU)

如果我做了

a[[1]][1:3]

你看到了结构：

[1] lorem ipsum li ld ee wö wo di dd
[2] la kdin di da dogs chicken
[3] kd good i need some help

现在我想用自己的字典做一些数据清理。一个例子是将 li 替换为 lorem ipsum 和 kd 以及 kdin 与 kunde < /强>

我的问题是如何为整个数据框做到这一点。

for(i in 1:(nrow(a))) { a[[1]][i]=gsub( " kd | kdin " , " kunde " ,a[[1]][i]) a[[1]][i]=gsub( " li " , " lorem ipsum " ,a[[1]][i]) ... }

有效但很多数据都很慢。

有更好的方法吗？

欢呼船长

Answer 1

gsub是矢量化的，所以你不需要循环。

a[[1]] <- gsub( " kd | kdin " , " kunde " , a[[1]])

更快。

另外，您确定要在正则表达式中包含空格吗？这样你就不会匹配行的开头或结尾的单词。

Answer 2

替代方法：完全避免使用正则表达式。当您有许多不同的单词要搜索时，这种方法效果最好，因为除了第一次之外，您将避免文本操作。

a1 <- c("lorem ipsum li ld ee wö wo di dd","la kdin di da dogs chicken","kd good i need some help")
x <- strsplit(a1, " ",fixed=TRUE) # fixed option avoids regexes which will  be slower

replfxn <- function(vec,word.in,word.out) {
  vec[vec %in% word.in] <- word.out
  vec
}

word.in <- "kdin"
word.out <- "kunde"

replfxn(x[[2]],word.in,word.out)

lapply(x,replfxn,word.in=word.in,word.out=word.out)
[[1]]
[1] "lorem" "ipsum" "li"    "ld"    "ee"    "wö"    "wo"    "di"    "dd"   

[[2]]
[1] "la"      "kunde"   "di"      "da"      "dogs"    "chicken"

[[3]]
[1] "kd"   "good" "i"    "need" "some" "help"

对于要搜索的大量单词，我猜这比正则表达式更快。它也更适合于数据代码分离，因为它有助于编写合并或类似函数，从文件中读取字典而不是将其嵌入代码中。

如果您确实需要原始格式（作为以空格分隔的字符向量），则可以将paste应用于结果。

这是时间结果。我站得更正：看起来像gsub更快！

library(microbenchmark)
microbenchmark(
  gsub( word.in , word.out , a1) ,
  lapply(x,replfxn,word.in=word.in,word.out=word.out) ,
  times = 1000
  )

                                                        expr    min     lq
1                                gsub(word.in, word.out, a1)  42772  44484
2 lapply(x, replfxn, word.in = word.in, word.out = word.out) 102653 106075
  median       uq    max
1  47905  48761.0 691193
2 109496 111635.5 970065

替换R data.frames中的单词（文本挖掘）

2 个答案: