我有一个~5GB的sql存储我想读入,然后用R.处理 拉链(gzip)时,占地面积约为2.4 GB,或略小于一半。
如果占地面积的一半,那么一半的数据必须通过驱动器到柱塞的“管道”。它必须在内存中解压缩。
有没有办法将拉链存储导入R比读取原始速度更快,或者是以原始速度读取最快的选项?
答案 0 :(得分:0)
您可以通过使用unz
,gzfile
等包装文件直接从压缩文件中读取。在您的情况下,我认为格式为:
data<-read.csv(gzfile('data.gz','data.csv'))