在RStudio中加载大型csv数据集的问题

时间:2018-05-30 16:43:33

标签: r csv import dataset rstudio

我有一些时间序列可供使用。特别是,我有一个单变量时间序列,保存在.csv文件中,只包含一个列,并包含> 1M行。事实上,当我尝试用Excel打开那个csv时,我得到了“无法显示所有记录”的弹出窗口。我只能查看1048576条记录。 我使用R和RStudio进行分析,因此我尝试将此数据集导入RStudio环境。有趣的是,我只能查看与使用Excel等程序完全相同的行数。

我发现的一个简单的训练是使用split bash命令拆分原始csv文件。所以:

split -l 500000 bigdata.csv

生成了4个较小的csv文件(前3个文件包含500k记录),我很容易设法导入4个不同的RStudio时间序列(我最终合并,获得想要的结果)。

我的问题是:我可以采取一些措施来避免所有这些过程,并直接加载这样一个没有最终行丢失的数据集? 我已经尝试了使用data.table函数的fread()库来加载数据集,但是没有任何好处:加载了相同数量的行。

我在Windows 10机器上使用RStudio,内存为6 GB。

编辑:我尝试memory.limit() cmd来检查可供RStudio使用的内存量。结果为“6072”,对应于我的6 GB RAM。

1 个答案:

答案 0 :(得分:0)

我刚刚这样做了,它在RStudio和Visual Studio中使用R:

df <-  read.csv("P:\\ALL.txt", header = TRUE)

我的文本文件有1072095行,并且没有一行在'df'

中被截断