sparklyr - 连接远程hadoop集群

时间:2017-05-19 15:39:28

标签: r apache-spark sparklyr

可以将sparklyr连接到远程hadoop集群,或者只能在本地使用它? 如果有可能,怎么样? :)

在我看来,从R到hadoop通过spark的连接是非常重要的!

2 个答案:

答案 0 :(得分:0)

您的意思是Hadoop还是Spark群集?如果是Spark,您可以尝试通过Livy进行连接,详情请点击此处: https://github.com/rstudio/sparklyr#connecting-through-livy

注意:通过Livy连接Spark集群正在sparklyr进行实验性开发

答案 1 :(得分:0)

您可以使用livy,它是用于Spark集群的Rest API服务。

一旦您在Azure上使用curl设置了HDinsight群集以获取下垂服务

#curl test
curl -k --user "admin:mypassword1!" -v -X GET 


#r-studio code
sc <- spark_connect(master = "https://<yourclustername>.azurehdinsight.net/livy/",
                     method = "livy", config = livy_config(
                       username = "admin",
                       password = rstudioapi::askForPassword("Livy password:")))

一些有用的网址 https://docs.microsoft.com/en-us/azure/hdinsight/spark/apache-spark-livy-rest-interface