我有一个在本地运行的R脚本:每个记录/行都被输入一个名为func的函数来执行一些计算。所以流程如下。
new <- lapply(old, func)
理想情况下,使用sparkR,我希望每个工作人员都具有函数func并对&#34; old&#34;的子集执行计算。在这种情况下,func非常简单,可以在本地计算(不需要这个func的分布式版本)。
任何人都知道如何使用SparkR实现这一目标?基本上问题是SparkR中是否有像doparallel那样支持多种工作者的支持。
答案 0 :(得分:0)
正在开发类似于SparkR上的doParallel的并行功能,但在1.6.0中尚不可用
https://issues.apache.org/jira/browse/SPARK-7264
另一种选择可能是在SparkR中使用UDF,这些UDF目前也在开发中,现在还没有。