在R中分析大型数据集(30gb)的最低系统要求是什么?

时间:2016-06-20 09:20:05

标签: r

我尝试在30GB CSV文件上运行Apriori算法,其中每行最多包含34个项目(列)。所以R工作室在执行后就死了。我想知道在大型数据集上运行算法需要多少RAM和CPU配置等最低系统要求?

1 个答案:

答案 0 :(得分:0)

这个问题无法回答。这在很大程度上取决于您想要对数据做什么。

实施例

  1. 如果你能够逐行处理所有行,你只需要一点点的ram(例如,如果你想要计算它们,我相信这也适用于Apriori的最简单的使用)
  2. 如果你想有效地计算所有点之间的距离,你需要一吨ram,另外几GB来存储输出(我相信这比Apriori最极端的使用还要强烈)。
  3. 结论

    因此我建议:

    使用您拥有的任何硬件来处理数据的子集。检查内存和CPU使用情况,增加数据大小(或其他参数)并推断结果以查看可能需要的内容。