如何使用sparkR在不同的集群上进行并行计算?

时间:2016-01-26 02:40:02

标签: r sparkr

我有一个在本地运行的R脚本:每个记录/行都被输入一个名为func的函数来执行一些计算。所以流程如下。

 new <- lapply(old, func)

理想情况下,使用sparkR,我希望每个工作人员都具有函数func并对&#34; old&#34;的子集执行计算。在这种情况下,func非常简单,可以在本地计算(不需要这个func的分布式版本)。

任何人都知道如何使用SparkR实现这一目标?基本上问题是SparkR中是否有像doparallel那样支持多种工作者的支持。

1 个答案:

答案 0 :(得分:0)

正在开发类似于SparkR上的doParallel的并行功能,但在1.6.0中尚不可用

https://issues.apache.org/jira/browse/SPARK-7264

另一种选择可能是在SparkR中使用UDF,这些UDF目前也在开发中,现在还没有。

https://issues.apache.org/jira/browse/SPARK-6817