读取具有R和UTF-8编码的庞大数据集?

时间:2018-10-31 14:04:41

标签: r encoding utf-8 bigdata read.csv

我正在使用RStudio,并且我具有.csv格式的巨大数据集(3000万行x 5列;数字和文本)。当我尝试导入该数据集时,用read.csv读取它是“不可能的”,因此我安装了library(sqldf)。使用命令read.csv.sql,我可以打开我的数据集,这大约需要45分钟。 sqlddf包可以读取它,但没有read.csv选项fileEncoding = 'UTF-8',因此当我读取该文件时,很多Unicode字符是错误的,例如“Camión”或“西班牙文”。

有人知道适合我使用UTF-8编码导入庞大数据集的正确库或命令吗?

0 个答案:

没有答案