Question

我正在努力找到正确的软件包依赖关系及其相对版本，以使用Pyspark微批处理方法写入Redshfit DB。

实现此目标的正确依赖性是什么？

Answer 1

AWS tutorial中的建议是提供JDBC驱动程序所必需的

wget https://s3.amazonaws.com/redshift-downloads/drivers/jdbc/1.2.20.1043/RedshiftJDBC4-no-awssdk-1.2.20.1043.jar

下载此jar并将其提供给spark-submit命令后，这就是我向其提供依赖项的方式：

spark-submit --master yarn --deploy-mode cluster \
  --jars RedshiftJDBC4-no-awssdk-1.2.20.1043.jar \
  --packages com.databricks:spark-redshift_2.10:2.0.0,org.apache.spark:spark-avro_2.11:2.4.0,com.eclipsesource.minimal-json:minimal-json:0.9.4 \
  my_script.py

最后，这是我提供给my_script.py的{{1}}

spark-submit

Spark 2.4.0依赖关系以写入AWS Redshift

1 个答案: