我已经查看了Stack Overflow上有关removeWords
无法正常工作的所有问题,对我来说,这不是已发布的原因。
以下是我所拥有的:
setwd("not shown")
filenames<-list.files(getwd(),pattern="*.txt")
files<-lapply(filenames,readLines)
docs<-Corpus(VectorSource(files))
writeLines(as.character(docs[[1]]))
docs <- tm_map(docs, removePunctuation)
docs <- tm_map(docs, removeNumbers)
docs<-tm_map(docs, content_transformer(tolower))
docs <- tm_map(docs, stripWhitespace)
docs <- tm_map(docs, removeWords, c(stopwords("english"))
一切正常,直到removeWords
的最后一行。
这是我得到的错误:
gsub错误(sprintf(&#34;(* UCP)\ b(%s)\ b&#34;,粘贴(单词,折叠=&#34; |&#34;)),: 输入字符串1无效UTF-8
有关我收到此错误的原因的任何想法?
答案 0 :(得分:0)
检查您的文件是否保存为UTF-8,默认情况下通常为ANSI或Unicode