我正在努力找到正确的软件包依赖关系及其相对版本,以使用Pyspark微批处理方法写入Redshfit DB。
实现此目标的正确依赖性是什么?
答案 0 :(得分:0)
AWS tutorial中的建议是提供JDBC驱动程序所必需的
wget https://s3.amazonaws.com/redshift-downloads/drivers/jdbc/1.2.20.1043/RedshiftJDBC4-no-awssdk-1.2.20.1043.jar
下载此jar并将其提供给spark-submit
命令后,这就是我向其提供依赖项的方式:
spark-submit --master yarn --deploy-mode cluster \
--jars RedshiftJDBC4-no-awssdk-1.2.20.1043.jar \
--packages com.databricks:spark-redshift_2.10:2.0.0,org.apache.spark:spark-avro_2.11:2.4.0,com.eclipsesource.minimal-json:minimal-json:0.9.4 \
my_script.py
最后,这是我提供给my_script.py
的{{1}}
spark-submit