我有很多代表邮件的文本文件。我想在R中的tm package中分析它们,所以我需要将它们放入R.什么是将消息中的所有单词读入R的有效方法?类似的东西:
txts <- Sys.glob("*.txt")
for (f in txts) {
tempData <- as.data.frame(scan(f, what="raw", quiet = TRUE))
data <- rbind(data, tempData)
}
只需要永远,并且不能很好地运作。如何阅读所有文件中的所有完整单词并快速将其导入R?
Bonus trickery:有些文件看起来很奇怪,现在在新行上有一些文字,比如
h
e
l
l
o
有没有办法可以忽略那些非常短的单词(已经将它们读入R中)或者将它们全部放在一起?