Question

我已经查看了Stack Overflow上有关removeWords无法正常工作的所有问题，对我来说，这不是已发布的原因。

以下是我所拥有的：

setwd("not shown")
filenames<-list.files(getwd(),pattern="*.txt")
files<-lapply(filenames,readLines)
docs<-Corpus(VectorSource(files))
writeLines(as.character(docs[[1]]))
docs <- tm_map(docs, removePunctuation)
docs <- tm_map(docs, removeNumbers)
docs<-tm_map(docs, content_transformer(tolower))
docs <- tm_map(docs, stripWhitespace)

docs <- tm_map(docs, removeWords, c(stopwords("english"))

一切正常，直到removeWords的最后一行。这是我得到的错误：

gsub错误（sprintf（＆＃34;（* UCP）\ b（％s）\ b＆＃34;，粘贴（单词，折叠=＆＃34; |＆＃34;））,: 输入字符串1无效UTF-8

有关我收到此错误的原因的任何想法？

Answer 1

检查您的文件是否保存为UTF-8，默认情况下通常为ANSI或Unicode

＆＃34;输入字符串1无效UTF-8＆＃34;在removeWords函数中

1 个答案: