我必须在大数据集上运行一些回归模型和描述。我有一个大约500个文件的文件夹(更新:txt文件),我想合并,总共250GB。
我知道如何合并文件夹中的所有文件,但是虽然我在128RAM服务器上运行它,但我一直在内存不足。
我正在寻找有关如何以可管理的方式(如果可能)使用R.加载/合并这些文件的任何提示/建议。我一直在研究诸如" ff"等软件包。和" bigmemory",这些会为我提供解决方案吗?
答案 0 :(得分:0)
我会建议ff和biglm包。后者允许您对存储在磁盘上的整个数据集(使用ff)运行回归,方法是在RAM中加载较小的块。使用read.table.ffdf()
将单独的txt文件转换为磁盘上的ff文件。请参阅chunk.ffdf()
帮助文件中的示例,了解如何使用biglm()
运行回归。