通过sparklyr连接到另一个火花星团时,我是否需要本地版本的Spark?

时间:2018-05-24 18:33:05

标签: apache-spark sparklyr

我有一个安装了Rstudio的生产R集群。用户在R服务器上进行负载平衡并在那里编写代码。我还有一个单独的Spark集群,它有4个节点。使用sparklyr我可以通过以下方式轻松连接到我的火花群:

sc <- sparklyr::spark_connect("spark://<my cluster>:7077")

我唯一注意到的是,当我这样做时,R生产服务器上有一些Spark应用程序使用。我相信这会引起一些问题。我在SPARK_HOME /var/lib/Spark位置的R生产服务器和Spark集群上安装了Spark。

我想避免在我的R服务器上完全使用Spark,这样就没有与Spark相关的用法。如何使用sparklyr

执行此操作

1 个答案:

答案 0 :(得分:1)

是的,您需要本地Spark安装才能提交Spark应用程序。其余的取决于模式:

  • 在客户端模式下,驱动程序将在您提交应用程序的同一节点上运行。
  • 在群集模式下,驱动程序将在群集上运行。将不会有本地Spark过程。但是,这不支持交互式处理。