尝试使用R中的文本挖掘包转换一些推文。收集推文数据,当将它们转换为语料库然后数据框时,所有重音都会丢失并转换为随机字符。搜索了很多,似乎没有人回答。我需要把它们转换成葡萄牙语。
myCorpus <- Corpus(VectorSource(tweetsCR.df$text))
myCorpus <- tm_map(myCorpus, removePunctuation)
myCorpus <- tm_map(myCorpus, removeNumbers)
myCorpus <- tm_map(myCorpus, content_transformer(removeURL)) #??
myCorpus = tm_map(myCorpus, function(myCorpus) iconv(enc2utf8(myCorpus), sub = "byte"))
myCorpus <- tm_map(myCorpus, stemDocument)
dtm <- TermDocumentMatrix(myCorpus)
m <- as.matrix(dtm)
v <- sort(rowSums(m),decreasing=TRUE)
在IBM工作台上尝试过,它与重音符号一起使用。似乎这是一个系统问题。有人有线索吗?