可以将sparklyr连接到远程hadoop集群,或者只能在本地使用它? 如果有可能,怎么样? :)
在我看来,从R到hadoop通过spark的连接是非常重要的!
答案 0 :(得分:0)
您的意思是Hadoop还是Spark群集?如果是Spark,您可以尝试通过Livy进行连接,详情请点击此处: https://github.com/rstudio/sparklyr#connecting-through-livy
注意:通过Livy连接Spark集群正在sparklyr进行实验性开发
答案 1 :(得分:0)
您可以使用livy,它是用于Spark集群的Rest API服务。
一旦您在Azure上使用curl设置了HDinsight群集以获取下垂服务
#curl test
curl -k --user "admin:mypassword1!" -v -X GET
#r-studio code
sc <- spark_connect(master = "https://<yourclustername>.azurehdinsight.net/livy/",
method = "livy", config = livy_config(
username = "admin",
password = rstudioapi::askForPassword("Livy password:")))
一些有用的网址 https://docs.microsoft.com/en-us/azure/hdinsight/spark/apache-spark-livy-rest-interface