我正在使用版本为1.3.1的小型火花簇(5个DataNodes和2个NameNodes)。我在伯克利博客中读到了这篇文章:
https://amplab.cs.berkeley.edu/large-scale-data-analysis-made-easier-with-sparkr/
详细说明如何使用sparkR实现梯度下降;通过sparkR方法“lapplyPartition”并行运行用户定义的梯度函数。如果lapplyPartition在每个节点中执行用户定义的渐变函数,我想在用户定义的渐变函数中使用的所有方法也应该在非常节点中可用。这意味着,R及其所有软件包应安装在每个节点中。我理解得好吗?
如果是这样,有没有办法管理R包?现在我的集群很小,所以我们可以手动完成,但我猜那些拥有大型集群的人不会这样做。有什么建议吗?
非常感谢!