将大量文本文件读入R中

时间:2015-06-11 11:57:36

标签: r text tm

我有很多代表邮件的文本文件。我想在R中的tm package中分析它们,所以我需要将它们放入R.什么是将消息中的所有单词读入R的有效方法?类似的东西:

txts <- Sys.glob("*.txt")
for (f in txts) {
tempData <- as.data.frame(scan(f, what="raw", quiet = TRUE))
 data <- rbind(data, tempData)
 }

只需要永远,并且不能很好地运作。如何阅读所有文件中的所有完整单词并快速将其导入R?

Bonus trickery:有些文件看起来很奇怪,现在在新行上有一些文字,比如

  h
  e
  l
  l
  o

有没有办法可以忽略那些非常短的单词(已经将它们读入R中)或者将它们全部放在一起?

0 个答案:

没有答案