Question

我有一个问题：有谁知道如何将sparkR与Redshift连接？

我正在尝试在我的redshift集群上使用spark来进行一些查询和数据争论

谢谢

Answer 1

我也试图这样做，我正在为我的火花星团使用数据库，我不能按常规做，但对我有用的是我先用Scala在SQLContext中加载数据然后我可以使用sparkR访问SQLContext，也许它不是最好的解决方案，但它的工作效果很好。

这是传播者Link

在Scala中我这样做：

val redshift_data  = sqlContext.read
  .format("com.databricks.spark.redshift")  
  .option("url", "jdbc://....")
  .option("tempdir", "s3a://....")
  .option("query", "SELECT * FROM table_name")
  .load()
  .registerTempTable("redshift_data")

然后在R

data <- sql(sqlContext, "SELECT * FROM redshift_data")

我真的希望这可能有所帮助。

连接sparkR与redshift

1 个答案: