Spark 2.4.0依赖关系以写入AWS Redshift

时间:2019-04-16 09:29:43

标签: apache-spark pyspark spark-streaming amazon-redshift

我正在努力找到正确的软件包依赖关系及其相对版本,以使用Pyspark微批处理方法写入Redshfit DB。

实现此目标的正确依赖性是什么?

1 个答案:

答案 0 :(得分:0)

AWS tutorial中的建议是提供JDBC驱动程序所必需的

wget https://s3.amazonaws.com/redshift-downloads/drivers/jdbc/1.2.20.1043/RedshiftJDBC4-no-awssdk-1.2.20.1043.jar

下载此jar并将其提供给spark-submit命令后,这就是我向其提供依赖项的方式:

spark-submit --master yarn --deploy-mode cluster \
  --jars RedshiftJDBC4-no-awssdk-1.2.20.1043.jar \
  --packages com.databricks:spark-redshift_2.10:2.0.0,org.apache.spark:spark-avro_2.11:2.4.0,com.eclipsesource.minimal-json:minimal-json:0.9.4 \
  my_script.py

最后,这是我提供给my_script.py的{​​{1}}

spark-submit