我正在使用一个EC2实例,该实例具有500 GB RAM,一个500 GB安装的驱动器用作缓存,并通过s3fs安装了S3存储桶。我正在尝试将众多大型(〜130 GB)的csvs合并到已安装存储桶中的单个文件中。合并文件的大小达到约100 GB(高速缓存仍未满)后,无论我尝试过哪种解决方案(C,C ++,R,bash),我都会得到一些“写入错误:不支持操作”的变体,通常会发生这种情况合并2个或3个较小的文件后。我已经用尽了专业知识,并且不确定如何进行这些文件合并。
样品代码(R):
library(data.table)
file1 <- fread('file1.csv', header = True, sep = ',')
fwrite(file1, 'merged.csv', append = True)
so on and so forth ...
重击:
cat *.csv >> ../merged.csv