Question

我得到了我使用Scrapy爬网的数据，该数据另存为csv文件，编码为utf-8-sig。数据具有许多不同的特殊字符：韩文，俄文，中文，西班牙文，...，星号（★），this，this ...

因此Scrapy可以保存，并且我可以在Notepad ++或CSVFileView等应用程序上查看它们。但是当我使用mydata <- read.csv(<path_to_file>, fileEncoding="UTF-8-SIG", header=FALSE)加载R时，出现了此错误：

Error in file(file, "rt", encoding = fileEncoding) : 
  unsupported conversion from 'UTF-8-SIG' to ''

如果不指定编码，则可以加载，但是符号将变成像â˜这样的字符，并且第一列标题将附加ï..

我应该选择包含所有字符的哪种编码？

Answer 1

由于输入已被编码为UTF-8，因此应使用encoding参数按原样读取文件。使用fileEncoding将尝试重新编码文件。

mydata <- read.csv(<path_to_file>, encoding="UTF-8", header=FALSE)