适用于在R中使用大数据(> 10 GB)的库,给定足够的内存(60 GB)

时间:2017-10-02 09:48:19

标签: r apache-spark bigdata

编辑:此问题不重复,因为只有阅读数据不是问题

我想对R中大约10 GB的csv文件进行分析。我正在使用具有60 GB内存的GCE虚拟机。

我想知道哪个R库适合阅读和执行操作,如filter,groupBy,colMeans等大文件

以下哪项应该是最佳选择(假设内存不是约束) -

  1. 坚持使用read.csvdplyr或申请系列等软件包。
  2. 使用ffbigmemory等软件包进行并行处理。
  3. 在任何其他分布式计算框架上使用RSpark。
  4. 任何其他完全适用于此的方法。

0 个答案:

没有答案