无法在R(文本挖掘)中转换重音和外来字符

时间:2017-03-23 20:00:58

标签: r text-mining

尝试使用R中的文本挖掘包转换一些推文。收集推文数据,当将它们转换为语料库然后数据框时,所有重音都会丢失并转换为随机字符。搜索了很多,似乎没有人回答。我需要把它们转换成葡萄牙语。

myCorpus <- Corpus(VectorSource(tweetsCR.df$text))
myCorpus <- tm_map(myCorpus, removePunctuation) 
myCorpus <- tm_map(myCorpus, removeNumbers)
myCorpus <- tm_map(myCorpus, content_transformer(removeURL))  #??
myCorpus = tm_map(myCorpus, function(myCorpus) iconv(enc2utf8(myCorpus), sub     = "byte"))
myCorpus <- tm_map(myCorpus, stemDocument)
dtm <- TermDocumentMatrix(myCorpus)
m <- as.matrix(dtm)
v <- sort(rowSums(m),decreasing=TRUE)

在IBM工作台上尝试过,它与重音符号一起使用。似乎这是一个系统问题。有人有线索吗?

0 个答案:

没有答案