如何使用编码正确导入数据?

时间:2018-06-01 09:36:52

标签: r utf-8 iso-8859-1 read.csv

如何使用编码正确导入数据? Latin1,Latin2,ISO-8859-1,UTF-8等 这是它对我有用的方式:

使用以下方法检查系统编码:

Sys.getlocale()

您可以尝试设置您正在使用的语言:     这是巴西葡萄牙语的例子:

Sys.setlocale(category = "LC_ALL", locale = "pt_BR.UTF-8") # Linux, macOS, other Unix-alikes

您可以尝试以该语言的特定编码读取您的数据:

`library(stringi)`
?stringi

运行stri_enc_detect()stri_enc_detect2() 查看您的文件编纂

stri_enc_detect("path-to-your-file/your-file.csv", filter_angle_brackets = T)

stri_enc_detect2(“path-to-your-file / your-file.csv”,locale = NULL)

第一个适用于我。

然后将结果应用于您的代码中。

请按照下面的一个例子说明:

df <- read.csv("path-to-your-file/your-file.csv",header = TRUE, sep = ";", 
               quote = "\"", na.strings = "", dec = ".", fileEncoding = "YOUR RESULT OF stri_enc_detect", 
               encoding = "UTF-8")

encoding = "UTF-8",对我没什么影响

来源:     http://people.fas.harvard.edu/~izahn/posts/reading-data-with-non-native-encoding-in-r/

此外,quote = "\""可以解决一些麻烦和奇怪的事情,如...... / ... /。

所以,试试:quote = "\""; quote = "\n"; quote = "\r"; quote = "";等

0 个答案:

没有答案