我点击了此链接以与Spark和我的R服务器建立连接。
Connection b/w R studio server pro and hive on GCP
我可以看到我的数据框,但是无法将其调用到R环境中以进行分析。有人可以建议我正确的方法吗?
library(sparklyr)
library(dplyr)
sparklyr::spark_install()
#config
Sys.setenv(SPARK_HOME="/usr/lib/spark")
config <- spark_config()
#connect
sc <- spark_connect(master="yarn-client",config = config,version="2.2.1")
我可以看到我的表“ rdt”,但是当我调用它时却显示找不到对象。
这是我尝试过的:
data <- rdt
产生错误的错误:错误:找不到对象“ rdt”
然后唯一的方法是将文件直接放入群集中,并设置工作目录以调用它(然后达到目的。.)我想调用它,通常情况下是从sparklyr导入df连接
setwd("~/Directory")
data2 <- read.csv("rdt.csv",header = TRUE)
str(data2)