在R中拆分大型数据集的替代方法

时间:2015-03-05 12:42:58

标签: r split bigdata

我使用split()来分割超过15M行的数据集。常见的split()有效但耗费大量时间。然后我创建了一个函数来按行数拆分数据集,然后使用snow并行地分割结果列表(这是必要的拆分,由一个变量拆分)。

现在它运行得更快但是对于15M线路它会崩溃,因为这个型号消耗了大量内存(我使用的是3台16GB内存的机器)。

您是否知道在不使用如此多内存的情况下进行此拆分的替代方案?我尝试了ff包,但是split函数不能像使用data.frame一样工作。我尝试了ffbase包的split-apply-combine,但我只需要拆分部分而且我找不到只使用拆分步骤的方法。

谢谢

0 个答案:

没有答案