R字云:乌克兰语编码

时间:2017-07-20 15:54:21

标签: r encoding utf-8 non-english

作为R的新人,我学习了很多教程,目前正在研究word clouds

我患有常见的R编码疾病:utf-8文本未按预期显示。

我正在尝试在.txt文件中创建一个文字云(乌克兰语,utf-8编码),我的云完全错误:(。

我的代码,我声明编码的部分:

text <- readLines(file.choose())
Encoding(text)  <- "UTF-8"
docs <- Corpus(VectorSource(text))
inspect(docs)

文本在控制台中按预期显示(乌克兰语,包含所有特殊符号)。

但是,当我创建矩阵然后创建数据帧时,输出的编码错误:

 dtm <- TermDocumentMatrix(docs)
 m <- as.matrix(dtm)
 v <- sort(rowSums(m),decreasing=TRUE)
 d <- data.frame(word = names(v),freq=v)
 head(d, 10)

我在控制台中看到的内容:

> head(d, 10)
    word freq
РЅР  РЅР 1856
СЃС  СЃС 1668
СЂР  СЂР 1576
РЅС  РЅС 1162
РІР  РІР 1119
РґР  РґР 1112
РјР  РјР  994
РѕР  РѕР  857
РєС  РєС  809
РёС  РёС  788

我尝试更改我在StackOverFlow上找到的语言环境和其他一些东西,但似乎没有任何效果。

可能是什么问题?我没看到/得到什么?

谢谢!

0 个答案:

没有答案