"输入字符串1无效UTF-8"在removeWords函数中

时间:2016-08-19 20:34:15

标签: python tm stop-words

我已经查看了Stack Overflow上有关removeWords无法正常工作的所有问题,对我来说,这不是已发布的原因。

以下是我所拥有的:

setwd("not shown")
filenames<-list.files(getwd(),pattern="*.txt")
files<-lapply(filenames,readLines)
docs<-Corpus(VectorSource(files))
writeLines(as.character(docs[[1]]))
docs <- tm_map(docs, removePunctuation)
docs <- tm_map(docs, removeNumbers)
docs<-tm_map(docs, content_transformer(tolower))
docs <- tm_map(docs, stripWhitespace)

docs <- tm_map(docs, removeWords, c(stopwords("english"))

一切正常,直到removeWords的最后一行。 这是我得到的错误:

  

gsub错误(sprintf(&#34;(* UCP)\ b(%s)\ b&#34;,粘贴(单词,折叠=&#34; |&#34;)),:     输入字符串1无效UTF-8

有关我收到此错误的原因的任何想法?

1 个答案:

答案 0 :(得分:0)

检查您的文件是否保存为UTF-8,默认情况下通常为ANSI或Unicode