在R中渲染缅甸字符

时间:2013-07-29 21:48:32

标签: r text unicode character-encoding southeast-asian-languages

我正在使用Burmese中的文本,并试图在R中运行主题模型.R似乎无法显示和渲染缅甸字符。当我将数据设置为data.frame时,缅甸字符被正确呈现:

data<-read.csv("data.csv", fileEncoding ="UTF8", encoding="UTF-8", stringsAsFactors=FALSE) 
filenames<-data[,2]
txts<-data[,5] 
docs <-data.frame(docs= txts,row.names=filenames)
ds <- DataframeSource(docs)
cases<-Corpus(ds)
cases[[1]]

လိုက်... #[the rest is a text file with properly rendered Burmese]

但是,当文本不是来自data.frame或直接来自csv文件时,有几个字符:

data[1,5]

လိုက\u103a

其余部分是一段文字,其中一些重音符号显示不正确,如本例所示。

我已使用Encoding()检查了编码,R确认在两种情况下我使用的是UTF-8。

仅供参考,我使用的是运行R64的Mac。我有一位同事使用PC并没有遇到这个问题,但我们无法隔离问题。

0 个答案:

没有答案