rxImport在大型数据集

时间:2017-06-02 12:53:03

标签: r microsoft-r

过去两天我一直尝试使用RxImport函数将大型CSV(9演出)转换为XDF格式,但未成功。

这个过程似乎从R服务器读取数据块中的块开始很好,但几分钟后它慢慢爬行,然后在大约6小时后完全失败,Windows停止服务器说它用完了RAM。

我正在使用的代码如下:

pd_in_file <- RxTextData("cca_pd_entity.csv", delimiter = ",") #file to import
pd_out_file <- file.path("cca_pd_entity.xdf") #desired output file
pd_data <- rxImport(inData = pd_in_file, outFile = pd_out_file, 
stringsAsFactors = TRUE, overwrite = TRUE)

我正在运行Microsoft R Server 9.0.1版。在具有16 GB内存的Windows 7计算机上。

谢谢

1 个答案:

答案 0 :(得分:2)

使用Hong Ooi的建议解决了在rxTextData中设置colInfo的问题。我不确定为什么它会产生如此大的差异,但它在不到2分钟内转换整个9gig数据集,而它在几小时之后完全无法导入。