我得到了我使用Scrapy爬网的数据,该数据另存为csv文件,编码为utf-8-sig
。数据具有许多不同的特殊字符:韩文,俄文,中文,西班牙文,...,星号(★),this,this ...
因此Scrapy可以保存,并且我可以在Notepad ++或CSVFileView等应用程序上查看它们。但是当我使用mydata <- read.csv(<path_to_file>, fileEncoding="UTF-8-SIG", header=FALSE)
加载R时,出现了此错误:
Error in file(file, "rt", encoding = fileEncoding) :
unsupported conversion from 'UTF-8-SIG' to ''
如果不指定编码,则可以加载,但是符号将变成像â˜
这样的字符,并且第一列标题将附加ï..
我应该选择包含所有字符的哪种编码?
答案 0 :(得分:1)
由于输入已被编码为UTF-8
,因此应使用encoding
参数按原样读取文件。使用fileEncoding
将尝试重新编码文件。
mydata <- read.csv(<path_to_file>, encoding="UTF-8", header=FALSE)