RStudio - 导入和使用西里尔文本

时间:2018-03-10 11:22:27

标签: r utf-8 character-encoding

我有一些俄罗斯文本,我想与之合作。运行快速测试:

> x <- "привет"
> x
[1] "\320\277\321\200\320\270\320\262\320\265\321\202"
> text <-scan("./Texts/Chekhov.txt", what = "character",
             encoding = "UTF-8")
> text[1]
[1] "<U+0413><U+041E><U+0420><U+0415>"

文件Chekhov.txt是包含俄文文本的utf8编码文本文件。到目前为止一切都很好 - 这代表了第一个词“ГОРЕ”。但是我如何让R给我西里尔字母而不是unicode表示?

做一些研究,建议往往是改变语言环境:

> Sys.setlocale(category = "LC_COLLATE", locale = "Russian")

当我尝试这个时,我收到以下错误消息:

> OS reports request to set locale to "Russian" cannot be honored

我觉得很奇怪,我得到以下内容:

> Sys.getlocale()
[1] "C"

我在Mac OS X上使用RStudio

0 个答案:

没有答案