连接sparkR与redshift

时间:2016-07-18 21:57:39

标签: amazon-redshift sparkr

我有一个问题:有谁知道如何将sparkR与Redshift连接?

我正在尝试在我的redshift集群上使用spark来进行一些查询和数据争论

谢谢

1 个答案:

答案 0 :(得分:0)

我也试图这样做,我正在为我的火花星团使用数据库,我不能按常规做,但对我有用的是我先用Scala在SQLContext中加载数据然后我可以使用sparkR访问SQLContext,也许它不是最好的解决方案,但它的工作效果很好。

这是传播者Link

在Scala中我这样做:

val redshift_data  = sqlContext.read
  .format("com.databricks.spark.redshift")  
  .option("url", "jdbc://....")
  .option("tempdir", "s3a://....")
  .option("query", "SELECT * FROM table_name")
  .load()
  .registerTempTable("redshift_data")

然后在R

data <- sql(sqlContext, "SELECT * FROM redshift_data")

我真的希望这可能有所帮助。