作为R的新人,我学习了很多教程,目前正在研究word clouds。
我患有常见的R编码疾病:utf-8文本未按预期显示。
我正在尝试在.txt文件中创建一个文字云(乌克兰语,utf-8编码),我的云完全错误:(。
我的代码,我声明编码的部分:
text <- readLines(file.choose())
Encoding(text) <- "UTF-8"
docs <- Corpus(VectorSource(text))
inspect(docs)
文本在控制台中按预期显示(乌克兰语,包含所有特殊符号)。
但是,当我创建矩阵然后创建数据帧时,输出的编码错误:
dtm <- TermDocumentMatrix(docs)
m <- as.matrix(dtm)
v <- sort(rowSums(m),decreasing=TRUE)
d <- data.frame(word = names(v),freq=v)
head(d, 10)
我在控制台中看到的内容:
> head(d, 10)
word freq
РЅР РЅР 1856
СЃС СЃС 1668
СЂР СЂР 1576
РЅС РЅС 1162
РІР РІР 1119
РґР РґР 1112
РјР РјР 994
РѕР РѕР 857
РєС РєС 809
РёС РёС 788
我尝试更改我在StackOverFlow上找到的语言环境和其他一些东西,但似乎没有任何效果。
可能是什么问题?我没看到/得到什么?
谢谢!