我在修改R's TM软件包中的english.dat stopword文件时遇到问题。 我添加到它的任何东西都是无法识别的。我尝试在文件的开头添加,中间,结尾,仍然无效。仅识别文件的原始文本。 我尝试将文件保存为ASCI,UTF,UTF-8,但无济于事。
有什么想法吗?
感谢
答案 0 :(得分:6)
尝试以这种方式添加它们,作为" english"的串联。列表:
myStopwords <- c(stopwords('english'), "available", "via") to add words
myCorpus <- tm_map(myCorpus, removeWords, myStopwords)