我有一些俄罗斯文本,我想与之合作。运行快速测试:
> x <- "привет"
> x
[1] "\320\277\321\200\320\270\320\262\320\265\321\202"
> text <-scan("./Texts/Chekhov.txt", what = "character",
encoding = "UTF-8")
> text[1]
[1] "<U+0413><U+041E><U+0420><U+0415>"
文件Chekhov.txt是包含俄文文本的utf8编码文本文件。到目前为止一切都很好 - 这代表了第一个词“ГОРЕ”。但是我如何让R给我西里尔字母而不是unicode表示?
做一些研究,建议往往是改变语言环境:
> Sys.setlocale(category = "LC_COLLATE", locale = "Russian")
当我尝试这个时,我收到以下错误消息:
> OS reports request to set locale to "Russian" cannot be honored
我觉得很奇怪,我得到以下内容:
> Sys.getlocale()
[1] "C"
我在Mac OS X上使用RStudio