如何优化read.csv

时间:2013-08-06 20:13:11

标签: r csv optimization import read.csv

我在R中通过read.csv()导入了几个大的(600000多行,~50列)CSV文件。每次阅读花费我宝贵的时间,所以我想尽可能加快这一步。我做过的一件事是先确定我不想要的列,并防止R读取它们。感谢回答on Cross Validated,为了做到这一点,我想出了这个丑陋的事情:

 > data <- read.csv('data.csv', colClasses=c(rep("NULL", 2), rep(NA, 2),
                                             rep("NULL", 17), rep(NA, 1),
                                             rep("NULL", 28)))

这使得该过程明显更快,但仍然不够快。还有什么我可以做的吗?我正在研究一台好的机器(2 GHz Intel Xeon,24 GB RAM),并且有点失望等待这么长时间来导入一个甚至不是很大的数据集。

0 个答案:

没有答案