我有一个问题:有谁知道如何将sparkR与Redshift连接?
我正在尝试在我的redshift集群上使用spark来进行一些查询和数据争论
谢谢
答案 0 :(得分:0)
我也试图这样做,我正在为我的火花星团使用数据库,我不能按常规做,但对我有用的是我先用Scala在SQLContext中加载数据然后我可以使用sparkR访问SQLContext,也许它不是最好的解决方案,但它的工作效果很好。
这是传播者Link
在Scala中我这样做:
val redshift_data = sqlContext.read
.format("com.databricks.spark.redshift")
.option("url", "jdbc://....")
.option("tempdir", "s3a://....")
.option("query", "SELECT * FROM table_name")
.load()
.registerTempTable("redshift_data")
然后在R
data <- sql(sqlContext, "SELECT * FROM redshift_data")
我真的希望这可能有所帮助。