为什么R无法读取文本文件

时间:2018-08-10 11:32:05

标签: r text-mining

尝试让R读取我的文本文件并进行文本挖掘,但是按照不起作用的步骤,不知道出了什么问题。请有人帮我

library(tm)
setwd("E://")
path="E:/KEYWORDS"
text<-readLines("KEYWORDS.txt")
corpus<- Corpus(VectorSource(text))
corpus<- tm_map(corpus,tolower)
corpus<- tm_map(corpus,removePunctuation)
corpus<-tm_map(corpus,stripWhitespace)
corpus<-Corpus(VectorSource(corpus))
tdm =TermDocumentMatrix(corpus,PlainTextDocument)
findFreTerms(tdm,lowfreq=2)

它显示:

Warning message:
In tm_map.SimpleCorpus(corpus, removePunctuation) :
transformation drops documents
tdm =TermDocumentMatrix(corpus,PlainTextDocument)
Error: is.list(control) is not TRUE

如果您这样做

str(readLines("KEYWORDS.txt"))
paste(str(readLines("KEYWORDS.txt")),collapse=" ")
text<-paste(str(readLines("KEYWORDS.txt")),collapse=" ")
gsub(pattern="//W", replace="  ", text)
text<-gsub(pattern="//W",replace=" ",text)
gsub(pattern="//d", replace=" ", text)
text<-gsub(pattern="//d", replace=" ", text1)
tolower(text)
text<-tolower(text)
text

它显示文本为空或包含0个字符 为什么?

1 个答案:

答案 0 :(得分:3)

tdm =TermDocumentMatrix(corpus,PlainTextDocument)
Error: is.list(control) is not TRUE

那是因为您已经将TermDocumentMatrix的第二个参数指定为PlainTextDocument,而不是控制参数列表。阅读TermDocumentMatrix的文档,以了解有效的控制参数集。

您说您是通过“遵循步骤”来做到这一点的,但是您应该首先了解这些步骤。