我使用的是amplab-extras / SparkR-pkg https://github.com/amplab-extras/SparkR-pkg/blob/master/README.md。测试并在本地机器上传递运行。我将在yarn-cluster上运行它(cdh5.4)。我是否需要在每个数据节点中安装R?
答案 0 :(得分:0)
是的,你这样做。每个工作人员都必须能够访问本地R解释器。
我个人建议不要使用旧的SparkR。忽略SPARK-7230中描述的问题,低级RDD API很可能不会再回到SparkR