应用错误收集

时间：2015-12-24 09:41:27

标签： r bigdata ff r-bigmemory

我必须在大数据集上运行一些回归模型和描述。我有一个大约500个文件的文件夹（更新：txt文件），我想合并，总共250GB。

我知道如何合并文件夹中的所有文件，但是虽然我在128RAM服务器上运行它，但我一直在内存不足。

我正在寻找有关如何以可管理的方式（如果可能）使用R.加载/合并这些文件的任何提示/建议。我一直在研究诸如＆＃34; ff＆＃34;等软件包。和＆＃34; bigmemory＆＃34;，这些会为我提供解决方案吗？

答案 0 :(得分：0)

我会建议ff和biglm包。后者允许您对存储在磁盘上的整个数据集（使用ff）运行回归，方法是在RAM中加载较小的块。使用read.table.ffdf()将单独的txt文件转换为磁盘上的ff文件。请参阅chunk.ffdf()帮助文件中的示例，了解如何使用biglm()运行回归。