我正在使用RStudio,并且我具有.csv格式的巨大数据集(3000万行x 5列;数字和文本)。当我尝试导入该数据集时,用read.csv
读取它是“不可能的”,因此我安装了library(sqldf)
。使用命令read.csv.sql
,我可以打开我的数据集,这大约需要45分钟。 sqlddf
包可以读取它,但没有read.csv选项fileEncoding = 'UTF-8'
,因此当我读取该文件时,很多Unicode字符是错误的,例如“Camión”或“西班牙文”。
有人知道适合我使用UTF-8编码导入庞大数据集的正确库或命令吗?