请有人建议将带有越南字符的数据导入R数据帧的最佳方法,以便正确描绘数据。我需要导入的数据类型包括以下列的较长版本:
Student_name
PHẠM THANH
PHẠM VĂN
NGUYỄN TUẤN
NGUYỄN VĂN
VŨ NGỌC
我尝试了很多选项,包括将数据保存为Unicode.txt并导入到指定了encoding = UTF-8
的R中。
使用read.csv
或read.table
,我收到错误消息
在
read.table("Stu.txt", header = TRUE, encoding = "UTF-8")
中: 第1行似乎包含嵌入的空值
保存为MS-Excel文件并使用read.xlsx
(包xlsx
)导入,我可以正常读取数据,而不指定编码我得到奇怪的输出,如图所示:
Student_name
1PHáºMTHANH
2PHáºMVÄ,N
3NGUYồNTUẤN
4NGUYồNVÄ,N
5NGUYồNVÄ,N
6VŨNiỌC
使用read.xlsx
和encoding="UTF-8"
,我可以获得UTF-8转换,但是没有十六进制代码,因此输出的名称包含在小于和
大于标志PH<'U + 1EA0'> M THANH等等,没有引号。
我正在运行R通过RStudio,版本0.99.467,使用Windows 7操作系统。
谢谢。
答案 0 :(得分:0)
我使用了stringi包中的stri_trans_general
函数:
data <- read.table("Stu.txt", header = TRUE, encoding = "UTF-8") %>%
mutate(Student_name = stri_trans_general(Student_name, "Latin-ASCII"))