在本地RStudio上使用带有apache集群的sparklyr

时间:2017-04-21 12:37:10

标签: apache-spark rstudio sparklyr

我是Sparklyr的新手,也是R的新手。我正在试图弄清楚我是否可以在我的本地RStudio上运行并连接到网络上的apache spark群集。所有博客示例都讨论了直接在apache spark集群上运行RStudio Server。任何人都可以验证这是否可行?

2 个答案:

答案 0 :(得分:2)

除非您的笔记本电脑与群集非常接近,否则您可能希望使用Livy。请参阅https://github.com/rstudio/sparklyr#connecting-through-livy

答案 1 :(得分:1)

是的,这应该是可能的。 首先 - 确保您的群集可从本地PC访问。 如果是,请转到Spark群集的Spark Master Web控制台(ip_address:8080)以获取Master的URL(" spark://...")。

library(sparklyr)
# Set your SPARK_HOME path
Sys.setenv(SPARK_HOME="path/to/spark_home")
config <- spark_config()
# Optionally you can modify config parameters here
sc <- spark_connect(master = "spark://paste_your_spark_master_url:7077", spark_home = Sys.getenv("SPARK_HOME"), config = config)

# Some test code, copying data to Spark cluster
iris_tbl <- copy_to(sc, iris)  
flights_tbl <- copy_to(sc, nycflights13::flights, "flights")
batting_tbl <- copy_to(sc, Lahman::Batting, "batting")
src_tbls(sc)

您可能还想尝试在本地运行Spark。只需按照sparklyr网页上的说明操作:http://spark.rstudio.com/。也许可以使用更新的Spark版本(例如2.0.2)。