将包含日文字符的csv文件读入R中

时间:2013-10-18 17:46:20

标签: r csv locale multibyte

我正在努力让R读取一个csv文件,其中一些列的标准英文字符,一些数字和一些日文字符的字段。这是数据的样子:

category,desc,otherdesc,volume
UPC - 31401 Age Itameabura,かどや製油 純白ごま油,OIL_OTHERS_SML_ECO,83.0
UPC - 31401 Age Itameabura,オレインリッチ,OIL_OTHERS_MED,137.0
UPC - 31401 Age Itameabura,TVキャノーラ油,OIL_CANOLA_OTHERS_LRG,3026.0 

将R的语言设置保留为英语,将日语字符转换为一些乱码。当我将R中的语言设置更改为日语Sys.setlocale("LC_CTYPE", "japanese")时,我看到该文件根本没有读入。 R给出错误说:

make.names(col.names,unique = TRUE)出错:   'サcategory'无效的多字节字符串

我不知道我的csv文件或标题名称有什么问题。您能否指导我如何将此csv文件读入R中,以便所有内容都像在csv文件中一样显示?

谢谢! Vish

1 个答案:

答案 0 :(得分:2)

对于日语,以下内容适用于我:

df< - read.csv(“your_file.csv”,fileEncoding =“cp932”)