应用错误收集

我点击了此链接以与Spark和我的R服务器建立连接。

Connection b/w R studio server pro and hive on GCP

我可以看到我的数据框，但是无法将其调用到R环境中以进行分析。有人可以建议我正确的方法吗？

library(sparklyr)
library(dplyr)
sparklyr::spark_install()
#config
Sys.setenv(SPARK_HOME="/usr/lib/spark")
config <- spark_config()
#connect
sc <- spark_connect(master="yarn-client",config = config,version="2.2.1")

我可以看到我的表“ rdt”，但是当我调用它时却显示找不到对象。

这是我尝试过的：

  data <- rdt

产生错误的错误：错误：找不到对象“ rdt”

然后唯一的方法是将文件直接放入群集中，并设置工作目录以调用它（然后达到目的。.）我想调用它，通常情况下是从sparklyr导入df连接

    setwd("~/Directory")
    data2 <- read.csv("rdt.csv",header = TRUE)
    str(data2)

如何通过Spark连接将数据从集群导入R环境？

0 个答案: