如何通过Spark连接将数据从集群导入R环境?

时间:2018-09-02 09:43:47

标签: r google-cloud-platform sparkr r-server

我点击了此链接以与Spark和我的R服务器建立连接。

Connection b/w R studio server pro and hive on GCP

我可以看到我的数据框,但是无法将其调用到R环境中以进行分析。有人可以建议我正确的方法吗?

library(sparklyr)
library(dplyr)
sparklyr::spark_install()
#config
Sys.setenv(SPARK_HOME="/usr/lib/spark")
config <- spark_config()
#connect
sc <- spark_connect(master="yarn-client",config = config,version="2.2.1")

我可以看到我的表“ rdt”,但是当我调用它时却显示找不到对象。

rdt table

这是我尝试过的:

  data <- rdt

产生错误的错误:错误:找不到对象“ rdt”

然后唯一的方法是将文件直接放入群集中,并设置工作目录以调用它(然后达到目的。.)我想调用它,通常情况下是从sparklyr导入df连接

    setwd("~/Directory")
    data2 <- read.csv("rdt.csv",header = TRUE)
    str(data2)

0 个答案:

没有答案