Question

请有人建议将带有越南字符的数据导入R数据帧的最佳方法，以便正确描绘数据。我需要导入的数据类型包括以下列的较长版本：

Student_name

PHẠM THANH

PHẠM VĂN

NGUYỄN TUẤN

NGUYỄN VĂN

VŨ NGỌC

我尝试了很多选项，包括将数据保存为Unicode.txt并导入到指定了encoding = UTF-8的R中。

使用read.csv或read.table，我收到错误消息

在read.table("Stu.txt", header = TRUE, encoding = "UTF-8")中：第1行似乎包含嵌入的空值

保存为MS-Excel文件并使用read.xlsx（包xlsx）导入，我可以正常读取数据，而不指定编码我得到奇怪的输出，如图所示：

 Student_name

1PHáºMTHANH

2PHáºMVÄ，N

3NGUYá»“NTUáº¤N

4NGUYá»“NVÄ，N

5NGUYá»“NVÄ，N

6VÅ¨Niá»ŒC

使用read.xlsx和encoding="UTF-8"，我可以获得UTF-8转换，但是没有十六进制代码，因此输出的名称包含在小于和大于标志PH＆lt;'U + 1EA0'＆gt; M THANH等等，没有引号。

我正在运行R通过RStudio，版本0.99.467，使用Windows 7操作系统。

谢谢。

Answer 1

我使用了stringi包中的stri_trans_general函数：

data <- read.table("Stu.txt", header = TRUE, encoding = "UTF-8")  %>% 
         mutate(Student_name = stri_trans_general(Student_name, "Latin-ASCII"))

将包含越南字符的数据导入R

1 个答案: