我有一些时间序列可供使用。特别是,我有一个单变量时间序列,保存在.csv文件中,只包含一个列,并包含> 1M行。事实上,当我尝试用Excel打开那个csv时,我得到了“无法显示所有记录”的弹出窗口。我只能查看1048576条记录。 我使用R和RStudio进行分析,因此我尝试将此数据集导入RStudio环境。有趣的是,我只能查看与使用Excel等程序完全相同的行数。
我发现的一个简单的训练是使用split
bash命令拆分原始csv文件。所以:
split -l 500000 bigdata.csv
生成了4个较小的csv文件(前3个文件包含500k记录),我很容易设法导入4个不同的RStudio时间序列(我最终合并,获得想要的结果)。
我的问题是:我可以采取一些措施来避免所有这些过程,并直接加载这样一个没有最终行丢失的数据集?
我已经尝试了使用data.table
函数的fread()
库来加载数据集,但是没有任何好处:加载了相同数量的行。
我在Windows 10机器上使用RStudio,内存为6 GB。
编辑:我尝试memory.limit()
cmd来检查可供RStudio使用的内存量。结果为“6072”,对应于我的6 GB RAM。
答案 0 :(得分:0)
我刚刚这样做了,它在RStudio和Visual Studio中使用R:
df <- read.csv("P:\\ALL.txt", header = TRUE)
我的文本文件有1072095行,并且没有一行在'df'
中被截断