Question

我有一个在本地运行的R脚本：每个记录/行都被输入一个名为func的函数来执行一些计算。所以流程如下。

 new <- lapply(old, func)

理想情况下，使用sparkR，我希望每个工作人员都具有函数func并对＆＃34; old＆＃34;的子集执行计算。在这种情况下，func非常简单，可以在本地计算（不需要这个func的分布式版本）。

任何人都知道如何使用SparkR实现这一目标？基本上问题是SparkR中是否有像doparallel那样支持多种工作者的支持。

Answer 1

正在开发类似于SparkR上的doParallel的并行功能，但在1.6.0中尚不可用

另一种选择可能是在SparkR中使用UDF，这些UDF目前也在开发中，现在还没有。