应用错误收集

时间：2017-07-07 10:01:10

标签： apache-spark apache-spark-sql amazon-emr databricks

我正在使用数据砖提供的spark-redshift库来从Spark中的redshift表中读取数据。链接：https://github.com/databricks/spark-redshift。

注意：红色群集和EMR群集的AWS账户在我的情况下是不同的。

我能够在Spark LOCAL模式下使用spark-redshift连接到redshift。但是相同的代码在EMR上失败，但有以下异常：java.sql.SQLException：设置/关闭连接时出错：连接超时。

我尝试在我的EMR集群的EC2安全组的入站规则中添加Redshift，但它没有帮助。我这样做时使用了Source作为MyIP。

答案 0 :(得分：0)

我们使用VPC对等连接redshift和EMR VPC，并更新了各个VPC的路由表，以接受来自其他VPC的IPv4 CIDR的流量。 VPC对等也可以跨AWS账户完成。请参阅上面的链接以获取更多详细信息。

完成此操作后，转到两个帐户中的VPC对等连接，并启用来自对等VPC的DNS解析。为此，选择VPC对等连接 - ＆gt;转到顶部的操作选项 - ＆gt;选择修改DNS设置 - ＆gt;选择允许来自对等VPC的DNS解析。

答案 1 :(得分：0)

我处于类似的情况，而是将Redshift添加到EMR集群的EC2安全组的入站规则中，请将EMR集群的公共IP添加到redshift的安全组中，这对我有用。希望这可以帮助！