在R中处理大数据的有效方法

时间:2017-10-08 15:03:28

标签: r bigdata

我有一个巨大的csv文件,1.37 GB,当在R中运行我的glm时,它崩溃了,因为我没有足够的内存分配。你知道,常规错误..

除了包ff和bigmemory之外别无选择,因为它们似乎对我来说效果不好,因为我的列是整数和字符的混合,而且似乎有两个包我必须指定我的列的类型是char或整数。

我们很快将在2018年,即将把人们放在火星上;我们可以使用没有简单的“read.csv.xxl”函数吗?

1 个答案:

答案 0 :(得分:1)

我首先要解决的问题是,仅仅因为你的样本数据需要1.37 GB而,这意味着使用glm进行所有计算时,1.37 GB是令人满意的包。最有可能的是,您的计算之一可能至少达到1.37 GB的倍数。

对于第二部分,这里的实际解决方法是采用1.37 GB数据集的合理子样本。您是否真的需要使用所有原始数据集中的数据点来构建模型?或者,可以说10%的子样本也会给你一个统计上显着的模型?如果降低数据集的大小,则用R。

解决内存问题

请记住,R完全在内存中运行,这意味着一旦超出可用内存,您可能会运气不佳。