无法读取以“ UTF-8-SIG”编码保存的csv文件

时间:2019-10-17 21:06:57

标签: r utf-8 character-encoding

我得到了我使用Scrapy爬网的数据,该数据另存为csv文件,编码为utf-8-sig。数据具有许多不同的特殊字符:韩文,俄文,中文,西班牙文,...,星号(★),this,this ...

因此Scrapy可以保存,并且我可以在Notepad ++或CSVFileView等应用程序上查看它们。但是当我使用mydata <- read.csv(<path_to_file>, fileEncoding="UTF-8-SIG", header=FALSE)加载R时,出现了此错误:

Error in file(file, "rt", encoding = fileEncoding) : 
  unsupported conversion from 'UTF-8-SIG' to ''

如果不指定编码,则可以加载,但是符号将变成像â˜这样的字符,并且第一列标题将附加ï..

我应该选择包含所有字符的哪种编码?

1 个答案:

答案 0 :(得分:1)

由于输入已被编码为UTF-8,因此应使用encoding参数按原样读取文件。使用fileEncoding将尝试重新编码文件。

mydata <- read.csv(<path_to_file>, encoding="UTF-8", header=FALSE)