Question

可以将sparklyr连接到远程hadoop集群，或者只能在本地使用它？如果有可能，怎么样？：）

在我看来，从R到hadoop通过spark的连接是非常重要的！

Answer 1

您的意思是Hadoop还是Spark群集？如果是Spark，您可以尝试通过Livy进行连接，详情请点击此处： https://github.com/rstudio/sparklyr#connecting-through-livy

注意：通过Livy连接Spark集群正在sparklyr进行实验性开发

Answer 2

您可以使用livy，它是用于Spark集群的Rest API服务。

一旦您在Azure上使用curl设置了HDinsight群集以获取下垂服务

#curl test
curl -k --user "admin:mypassword1!" -v -X GET 


#r-studio code
sc <- spark_connect(master = "https://<yourclustername>.azurehdinsight.net/livy/",
                     method = "livy", config = livy_config(
                       username = "admin",
                       password = rstudioapi::askForPassword("Livy password:")))

一些有用的网址 https://docs.microsoft.com/en-us/azure/hdinsight/spark/apache-spark-livy-rest-interface

sparklyr - 连接远程hadoop集群

2 个答案: