如何使用sparklyr在Spark集群中存储数据?

时间:2017-02-23 13:40:32

标签: r sparklyr

如果我连接到Spark群集,请将一些数据复制到它,并断开连接,...

library(dplyr)
library(sparklyr)
sc <- spark_connect("local")
copy_to(sc, iris)
src_tbls(sc)
## [1] "iris"
spark_disconnect(sc)

然后下次我连接到Spark时,数据不存在。

sc <- spark_connect("local")
src_tbls(sc)
## character(0)
spark_disconnect(sc)

这与使用数据库的情况不同,无论您连接多少次,数据就在那里。

如何在连接之间将数据保存在Spark群集中?

我认为sdf_persist()可能是我想要的,但似乎没有。

1 个答案:

答案 0 :(得分:1)

Spark在技术上是一个在计算机/集群上运行以执行任务的引擎。它不是数据库或文件系统。完成文件系统后可以保存数据,并在下次会话期间加载数据。

https://en.wikipedia.org/wiki/Apache_Spark