我在R中通过read.csv()
导入了几个大的(600000多行,~50列)CSV文件。每次阅读花费我宝贵的时间,所以我想尽可能加快这一步。我做过的一件事是先确定我不想要的列,并防止R读取它们。感谢回答on Cross Validated,为了做到这一点,我想出了这个丑陋的事情:
> data <- read.csv('data.csv', colClasses=c(rep("NULL", 2), rep(NA, 2),
rep("NULL", 17), rep(NA, 1),
rep("NULL", 28)))
这使得该过程明显更快,但仍然不够快。还有什么我可以做的吗?我正在研究一台好的机器(2 GHz Intel Xeon,24 GB RAM),并且有点失望等待这么长时间来导入一个甚至不是很大的数据集。