应用错误收集

适用于在R中使用大数据（> 10 GB）的库，给定足够的内存（60 GB）

时间：2017-10-02 09:48:19

标签： r apache-spark bigdata

编辑：此问题不重复，因为只有阅读数据不是问题

我想对R中大约10 GB的csv文件进行分析。我正在使用具有60 GB内存的GCE虚拟机。

我想知道哪个R库适合阅读和执行操作，如filter，groupBy，colMeans等大文件

以下哪项应该是最佳选择（假设内存不是约束） -

坚持使用read.csv和dplyr或申请系列等软件包。
使用ff或bigmemory等软件包进行并行处理。
在任何其他分布式计算框架上使用RSpark。
任何其他完全适用于此的方法。

0 个答案:

没有答案