R中的unicode转换和导出

时间:2013-04-16 04:12:21

标签: r unicode

我在下面创建了一个脚本,用于将unicode转换为中文字符,temp.df[,"name_unicode"]中的最后一个字符串是“§®£”(没有引号),这样不懂中文的人也可以提供帮助。

library(RODBC)
library(Unicode)

temp.df <- data.frame(name_unicode=c("&#38515;&#22823;&#25991;",
                                     "&#38515;&#23567;&#25935;",
                                     "&#38515;&#19968;&#23665;",
                                     "&#167;&#174;&#163;"),
                      stringsAsFactors=FALSE)

temp.df[,"name_unicode_mod"] <- sapply(temp.df[,"name_unicode"],
                                        function(x) {
                                          temp <- unlist(strsplit(x,";"))
                                          temp <- sprintf("%x",as.integer(gsub("[^0-9]","",temp)))
                                          temp <- intToUtf8(as.u_char_range(temp))
                                          return(temp)
                                          })


write.csv(temp.df,file("test.csv",encoding="UTF-8"),row.names=FALSE)

对于R控制台,temp.df[,"name_unicode_mod"]的输出正常。但我需要以csvxls格式导出它们。我在write.csv中尝试了write.tableodbcConnectExcelRODBC,但都给了我<U+00A7><U+00AE><U+00A3>之类的内容。

有人可以帮忙吗?感谢。

P.S。我使用的是R 3.0.0和Win7

1 个答案:

答案 0 :(得分:5)

使用二进制书写将适用于您的案例。 以下是一个小样本代码。

writeUtf8csv <- function(x, file) {
  con <- file(file, "wb")
  apply(x, 1, function(a) {
      b <- paste(paste(a, collapse=','), '\r\n', sep='')
      writeBin(charToRaw(b), con, endian="little")
    })
  close(con)
}

更多详细信息显示在this reference page