我有一个安装了Rstudio的生产R集群。用户在R服务器上进行负载平衡并在那里编写代码。我还有一个单独的Spark集群,它有4个节点。使用sparklyr我可以通过以下方式轻松连接到我的火花群:
sc <- sparklyr::spark_connect("spark://<my cluster>:7077")
我唯一注意到的是,当我这样做时,R生产服务器上有一些Spark应用程序使用。我相信这会引起一些问题。我在SPARK_HOME
/var/lib/Spark
位置的R生产服务器和Spark集群上安装了Spark。
我想避免在我的R服务器上完全使用Spark,这样就没有与Spark相关的用法。如何使用sparklyr
?
答案 0 :(得分:1)
是的,您需要本地Spark安装才能提交Spark应用程序。其余的取决于模式: