将包含越南字符的数据导入R

时间:2015-12-12 15:17:12

标签: xml r unicode

请有人建议将带有越南字符的数据导入R数据帧的最佳方法,以便正确描绘数据。我需要导入的数据类型包括以下列的较长版本:

Student_name

PHẠM THANH

PHẠM VĂN

NGUYỄN TUẤN

NGUYỄN VĂN

VŨ NGỌC

我尝试了很多选项,包括将数据保存为Unicode.txt并导入到指定了encoding = UTF-8的R中。

使用read.csvread.table,我收到错误消息

  

read.table("Stu.txt", header = TRUE, encoding = "UTF-8")中:     第1行似乎包含嵌入的空值

保存为MS-Excel文件并使用read.xlsx(包xlsx)导入,我可以正常读取数据,而不指定编码我得到奇怪的输出,如图所示:

 Student_name

1PHáºMTHANH

2PHáºMVÄ,N

3NGUYồNTUẤN

4NGUYồNVÄ,N

5NGUYồNVÄ,N

6VŨNiỌC

使用read.xlsxencoding="UTF-8",我可以获得UTF-8转换,但是没有十六进制代码,因此输出的名称包含在小于和 大于标志PH<'U + 1EA0'> M THANH等等,没有引号。

我正在运行R通过RStudio,版本0.99.467,使用Windows 7操作系统。

谢谢。

1 个答案:

答案 0 :(得分:0)

我使用了stringi包中的stri_trans_general函数:

data <- read.table("Stu.txt", header = TRUE, encoding = "UTF-8")  %>% 
         mutate(Student_name = stri_trans_general(Student_name, "Latin-ASCII"))